Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1344
Название: Устранение избыточности и дублирования сюжетов новостных сообщений
Другие названия: Elimination of redundancy and duplication of plots of news messages
Авторы: Никконен, А. Ю.
Дата публикации: 2007
Издатель: Изд-во Урал. ун-та
Библиографическое описание: Никконен, А. Ю. Устранение избыточности и дублирования сюжетов новостных сообщений / А. Ю. Никконен // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 153–163.
Аннотация: Анализ существующих методов обработки новостных сообщений, публикуемых в сети Интернет, показал, что в настоящее время проблема избыточности и дублирования сюжетов новостных сообщений решается путем разбиения новостных сообщений на группы, описывающие одно событие, и предоставления пользователю лучшего сообщения группы. Недостаток такого подхода состоит в том, что пользователь не получает информацию, которая содержится в остальных сообщениях группы и не входит в лучшее сообщение. Предлагаемый метод устранения избыточности и дублирования новостных сюжетов основан на попарном сравнении всех сообщений каждой группы, выявлению текстуальной близости между частями сообщений и формированию на основании полученных данных матрицы. Полученная матрица позволяет выделять из группы сообщений фрагменты с неповторяющейся информацией и формировать итоговое сообщение. Тестирование данного метода дало удовлетворительный результат, который, в целом, совпал с ожидаемым. Был выявлен ряд проблем, решение которых требует дополнительных исследований, основные из которых — несогласованность частей итогового сообщения и незаконченность мысли в отдельных частях.
The analysis of existing methods of processing of the news messages published in a network the Internet, has shown, that now the problem of redundancy and duplication of plots of news messages is solved by splitting news messages into the groups describing one event, and granting to the user of the best message of group. Lack of such approach consist that the user doesh’t receive the information which contains in other messages of group and doesn’t enter into the best message. The offered method of elimination of redundancy and duplication of news plots is based on paired comparison of all messages of each group, te revealing of texutal affinity between parts of messages and to formation on the basis of the received data of a matrix. The received matrix allows to allocate from group of messages the fragments with non-recurring information and to form the final message. Testing of the given method has given satisfactory result which, as a whole, has coincided with expected. A number of problems which decision demands additional researches has been revealed, of basic of which inconsistency of parts of the final message and incompleteness think in separate parts.
Ключевые слова: ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
URI: http://elar.urfu.ru/handle/10995/1344
ISBN: 978-5-7525-1788-5
Источники: Интернет-математика 2007. — Екатеринбург, 2007
Располагается в коллекциях:Информационный поиск

Файлы этого ресурса:
Файл Описание РазмерФормат 
IMAT_2007_18.pdf509,4 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.