Please use this identifier to cite or link to this item: http://elar.urfu.ru/handle/10995/1344
Title: Устранение избыточности и дублирования сюжетов новостных сообщений
Other Titles: Elimination of redundancy and duplication of plots of news messages
Authors: Никконен, А. Ю.
Issue Date: 2007
Publisher: Изд-во Урал. ун-та
Citation: Никконен, А. Ю. Устранение избыточности и дублирования сюжетов новостных сообщений / А. Ю. Никконен // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 153–163.
Abstract: Анализ существующих методов обработки новостных сообщений, публикуемых в сети Интернет, показал, что в настоящее время проблема избыточности и дублирования сюжетов новостных сообщений решается путем разбиения новостных сообщений на группы, описывающие одно событие, и предоставления пользователю лучшего сообщения группы. Недостаток такого подхода состоит в том, что пользователь не получает информацию, которая содержится в остальных сообщениях группы и не входит в лучшее сообщение. Предлагаемый метод устранения избыточности и дублирования новостных сюжетов основан на попарном сравнении всех сообщений каждой группы, выявлению текстуальной близости между частями сообщений и формированию на основании полученных данных матрицы. Полученная матрица позволяет выделять из группы сообщений фрагменты с неповторяющейся информацией и формировать итоговое сообщение. Тестирование данного метода дало удовлетворительный результат, который, в целом, совпал с ожидаемым. Был выявлен ряд проблем, решение которых требует дополнительных исследований, основные из которых — несогласованность частей итогового сообщения и незаконченность мысли в отдельных частях.
The analysis of existing methods of processing of the news messages published in a network the Internet, has shown, that now the problem of redundancy and duplication of plots of news messages is solved by splitting news messages into the groups describing one event, and granting to the user of the best message of group. Lack of such approach consist that the user doesh’t receive the information which contains in other messages of group and doesn’t enter into the best message. The offered method of elimination of redundancy and duplication of news plots is based on paired comparison of all messages of each group, te revealing of texutal affinity between parts of messages and to formation on the basis of the received data of a matrix. The received matrix allows to allocate from group of messages the fragments with non-recurring information and to form the final message. Testing of the given method has given satisfactory result which, as a whole, has coincided with expected. A number of problems which decision demands additional researches has been revealed, of basic of which inconsistency of parts of the final message and incompleteness think in separate parts.
Keywords: ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
URI: http://elar.urfu.ru/handle/10995/1344
ISBN: 978-5-7525-1788-5
Origin: Интернет-математика 2007. — Екатеринбург, 2007
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2007_18.pdf509,4 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.