Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1421
Название: Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики
Авторы: Киселев, М. В.
Пивоваров, В. С.
Шмулевич, М. М.
Дата публикации: 2005
Издатель: б. и.
Библиографическое описание: Киселев М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики / М. В. Киселев, В. С. Пивоваров, М. М. Шмулевич // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 412-435.
Аннотация: Данная работа посвящена автоматической смысловой кластеризации текстов и ее применению к анализу динамики тематического состава потока новостей. Проанализированы существующие методики кластеризации, и показано, что ни одна из них не обладает полным набором качеств, необходимых для успешного решения этой задачи. С целью преодоления этих трудностей предложен новый метод, названный островной кластеризацией, который основан на статистической мере корреляции встречаемости в текстах термов, характеризующихся значимым превышением их частот над средним уровнем. Показано, что он успешно решает проблемы плоской и иерархической кластеризации новостей, а также отслеживания динамики тем новостного потока.
This paper is devoted to automated clustering of document sets and its application to analysis of electronic news topic structure dynamics. The existing clustering algorithms are considered and it is shown that none of them obeys the full set of requirements necessary for successful solution of this problem. In order to overcome these difficulties a novel method called island clustering is proposed. It is based on a statistical measure of term co-occurrence calculated only for the terms showing in some texts significant frequency excess over the average level. It is demonstrated that our method obtains high quality flat and hierarchical clustering of news and allows user to monitor qualitatively and quantitatively evolution of the news stream thematic structure.
URI: http://elar.urfu.ru/handle/10995/1421
Источники: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:Информационный поиск

Файлы этого ресурса:
Файл Описание РазмерФормат 
IMAT_2005_22.pdf563,02 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.