Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1423
Title: Обработка потока новостей на основе больших лингвистических ресурсов
Other Titles: News Processing Based on Large Linguistic Resource
During this project we studied if it is possible to use a conceptbased linguistic resource (Sociopolitical thesaurus) together with bag of words models for processing of news stories. We tried to understand how to construct thesaurus-based Boolean descriptions of news documents and use these conceptual Boolean descriptions for tasks of new services. In the report we showed that the most clusters, built by Yandex clustering algorithm, can be described with meaningful Boolean expressions. If it is impossible to build a Boolean expression including more than 80 percents of documents of a cluster, it means that cluster is not good.
Authors: Лукашевич, Н. В.
Добров, Б. В.
Штернов, С. В.
Issue Date: 2005
Publisher: б. и.
Citation: Лукашевич Н. В. Обработка потока новостей на основе больших лингвистических ресурсов / Н. В. Лукашевич, Б. В. Добров, С. В. Штернов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 461-484.
Abstract: Задачей настоящего исследования является выяснение, насколько в задачах обработки новостных потоков,базирующихся в основном на пословном представлении содержания документов, может использоваться заранее созданный большой лингвистический ресурс онтологического типа, а именно, можно ли построить на основе Общественно-политического тезауруса булевские описания содержания кластеров, основанных на пословных моделях, и можно ли применить построенные булевские описания для решения задач, возникающих при работе новостных сервисов. В ходе исследования выяснилось, что для большинства кластеров, построенных алгоритмом кластеризации Яндекса, удается построить булевское выражение, отражающее основное содержание документов этого кластера. Если не удается построить булевское описание, которое охватывало бы более 80 процентов документов кластера, это свидетельствует о плохом качестве кластера.
URI: http://hdl.handle.net/10995/1423
http://elar.urfu.ru/handle/10995/1423
Origin: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2005_24.pdf436,31 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.