Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1412
Название: Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ
Другие названия: Comparison of topic distillation methods based on links and text analysis
Авторы: Козлов, Д. Д.
Белова, А. А.
Дата публикации: 2005
Издатель: б. и.
Библиографическое описание: Козлов Д. Д. Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ / Д. Д. Козлов, А. А. Белова // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 250-271.
Аннотация: Одним из важных аспектов тематического поиска в Web является создание у пользователя представления о том, какая имеется информация по интересующей его теме. Для этой цели могут применяться методы поиска тематических сообществ [8,9], основанные на анализе структуры гиперссылок. В данной работе исследуется эффективность методов поиска тематических сообществ, основанных на анализе гиперссылок (HITS, SALSA), а также комбинированных методов, сочетающих анализ гиперссылок с традиционными методами анализа текстов (TFIDF и LSA). Экспериментальные результаты показывают, что использование анализа гиперссылок стало менее эффективно из-за изменения структуры гиперссылок, а для эффективного поиска тематических сообществ требуется большое количество эвристик. Дополнительное применение эвристик и элементов анализа текста позволяет повысить качество работы методов поиска тематических сообществ. При этом применение методов, основанных на разложении по собственным векторам, не дает ощутимого выигрыша в качестве, а существенно уступает в вычислительной сложности.
In this paper four approaches to topic distillation are compared: classical HITS [10], HITS with non-principal eigenvectors[9], unified text and link analysis [6] and combined analysis [15] based on SALSA, TFIDF and heuristics. Comparison is based on TREC WebTrack methodology but is made on real data from Russian part of the Web. The result is that topic distillation methods don’t work without heuristics on modern Web, combination of text analysis and simple SALSA is better than complex unified analysis, HITS with enough heuristics is comparable with more complex methods with text analysis.
URI: http://elar.urfu.ru/handle/10995/1412
Источники: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:Информационный поиск

Файлы этого ресурса:
Файл Описание РазмерФормат 
IMAT_2005_13.pdf368 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.