Обработка потока новостей на основе больших лингвистических ресурсов

Лукашевич, Н. В.; Добров, Б. В.; Штернов, С. В.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1423

Название:	Обработка потока новостей на основе больших лингвистических ресурсов
Другие названия:	News Processing Based on Large Linguistic Resource During this project we studied if it is possible to use a conceptbased linguistic resource (Sociopolitical thesaurus) together with bag of words models for processing of news stories. We tried to understand how to construct thesaurus-based Boolean descriptions of news documents and use these conceptual Boolean descriptions for tasks of new services. In the report we showed that the most clusters, built by Yandex clustering algorithm, can be described with meaningful Boolean expressions. If it is impossible to build a Boolean expression including more than 80 percents of documents of a cluster, it means that cluster is not good.
Авторы:	Лукашевич, Н. В. Добров, Б. В. Штернов, С. В.
Дата публикации:	2005
Издатель:	б. и.
Библиографическое описание:	Лукашевич Н. В. Обработка потока новостей на основе больших лингвистических ресурсов / Н. В. Лукашевич, Б. В. Добров, С. В. Штернов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 461-484.
Аннотация:	Задачей настоящего исследования является выяснение, насколько в задачах обработки новостных потоков,базирующихся в основном на пословном представлении содержания документов, может использоваться заранее созданный большой лингвистический ресурс онтологического типа, а именно, можно ли построить на основе Общественно-политического тезауруса булевские описания содержания кластеров, основанных на пословных моделях, и можно ли применить построенные булевские описания для решения задач, возникающих при работе новостных сервисов. В ходе исследования выяснилось, что для большинства кластеров, построенных алгоритмом кластеризации Яндекса, удается построить булевское выражение, отражающее основное содержание документов этого кластера. Если не удается построить булевское описание, которое охватывало бы более 80 процентов документов кластера, это свидетельствует о плохом качестве кластера.
URI:	http://elar.urfu.ru/handle/10995/1423
Источники:	Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
IMAT_2005_24.pdf		436,31 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика Google Scholar

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.