Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1351
Title: Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя
Other Titles: Investigating techniques of fuzzy duplicate web-documents detection based on a user’s request.
Authors: Цыганов, Н. Л.
Циканин, М. А.
Issue Date: 2007
Publisher: Изд-во Урал. ун-та
Citation: Цыганов, Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Циканин // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 211–222.
Abstract: В данной работе исследуется методика on-line поиска дубликатов веб-документов на основе вычисления схожести релевантных запросу пользователя фрагментов (сниппетов) и атрибутов (заголовков). Формулируется математическая постановка задачи поиска нечетких дубликатов в больших репозиториях данных. Исследуется эффективность применения различных функций схожести на основе дистанции редактирования и векторной модели документа. Предлагается использование динамических функций вычисления общей схожести веб-документов. Полученные результаты позволяют говорить о высокой эффективности предложенного подхода и целесообразности его применения для существенного улучшения качества ответа поисковой машины на запрос пользователя.
The research is devoted to investigating a technique of online fuzzy duplicate web-documents detection by computing the similarity of document fragments (snippets) and attributes (titles) relevant to a user’s request. It formally states a mathematical problem for locating fuzzy duplicates in huge data repositories. It explores the efficiency of different similarity functions based either on editing distance or vector-space document model. It then introduces the usage of dynamic functions to improve the calculation of overall document similarity. It concludes by exposing results that prove the high efficiency and improved adequacy of search results to user requests when compared to existing search engine solutions, while delivering productivity levels that are on a par with existing production quality systems.
Keywords: ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
URI: http://hdl.handle.net/10995/1351
http://elar.urfu.ru/handle/10995/1351
ISBN: 978-5-7525-1788-5
Origin: Интернет-математика 2007. — Екатеринбург, 2007
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2007_24.pdf477,42 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.