Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1412
Title: Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ
Other Titles: Comparison of topic distillation methods based on links and text analysis
Authors: Козлов, Д. Д.
Белова, А. А.
Issue Date: 2005
Publisher: б. и.
Citation: Козлов Д. Д. Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ / Д. Д. Козлов, А. А. Белова // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 250-271.
Abstract: Одним из важных аспектов тематического поиска в Web является создание у пользователя представления о том, какая имеется информация по интересующей его теме. Для этой цели могут применяться методы поиска тематических сообществ [8,9], основанные на анализе структуры гиперссылок. В данной работе исследуется эффективность методов поиска тематических сообществ, основанных на анализе гиперссылок (HITS, SALSA), а также комбинированных методов, сочетающих анализ гиперссылок с традиционными методами анализа текстов (TFIDF и LSA). Экспериментальные результаты показывают, что использование анализа гиперссылок стало менее эффективно из-за изменения структуры гиперссылок, а для эффективного поиска тематических сообществ требуется большое количество эвристик. Дополнительное применение эвристик и элементов анализа текста позволяет повысить качество работы методов поиска тематических сообществ. При этом применение методов, основанных на разложении по собственным векторам, не дает ощутимого выигрыша в качестве, а существенно уступает в вычислительной сложности.
In this paper four approaches to topic distillation are compared: classical HITS [10], HITS with non-principal eigenvectors[9], unified text and link analysis [6] and combined analysis [15] based on SALSA, TFIDF and heuristics. Comparison is based on TREC WebTrack methodology but is made on real data from Russian part of the Web. The result is that topic distillation methods don’t work without heuristics on modern Web, combination of text analysis and simple SALSA is better than complex unified analysis, HITS with enough heuristics is comparable with more complex methods with text analysis.
URI: http://hdl.handle.net/10995/1412
http://elar.urfu.ru/handle/10995/1412
Origin: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2005_13.pdf368 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.