Please use this identifier to cite or link to this item: http://elar.urfu.ru/handle/10995/1421
Title: Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики
Authors: Киселев, М. В.
Пивоваров, В. С.
Шмулевич, М. М.
Issue Date: 2005
Publisher: б. и.
Citation: Киселев М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики / М. В. Киселев, В. С. Пивоваров, М. М. Шмулевич // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 412-435.
Abstract: Данная работа посвящена автоматической смысловой кластеризации текстов и ее применению к анализу динамики тематического состава потока новостей. Проанализированы существующие методики кластеризации, и показано, что ни одна из них не обладает полным набором качеств, необходимых для успешного решения этой задачи. С целью преодоления этих трудностей предложен новый метод, названный островной кластеризацией, который основан на статистической мере корреляции встречаемости в текстах термов, характеризующихся значимым превышением их частот над средним уровнем. Показано, что он успешно решает проблемы плоской и иерархической кластеризации новостей, а также отслеживания динамики тем новостного потока.
This paper is devoted to automated clustering of document sets and its application to analysis of electronic news topic structure dynamics. The existing clustering algorithms are considered and it is shown that none of them obeys the full set of requirements necessary for successful solution of this problem. In order to overcome these difficulties a novel method called island clustering is proposed. It is based on a statistical measure of term co-occurrence calculated only for the terms showing in some texts significant frequency excess over the average level. It is demonstrated that our method obtains high quality flat and hierarchical clustering of news and allows user to monitor qualitatively and quantitatively evolution of the news stream thematic structure.
URI: http://elar.urfu.ru/handle/10995/1421
Origin: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2005_22.pdf563,02 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.