Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1351
Название: Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя
Другие названия: Investigating techniques of fuzzy duplicate web-documents detection based on a user’s request.
Авторы: Цыганов, Н. Л.
Циканин, М. А.
Дата публикации: 2007
Издатель: Изд-во Урал. ун-та
Библиографическое описание: Цыганов, Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Циканин // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 211–222.
Аннотация: В данной работе исследуется методика on-line поиска дубликатов веб-документов на основе вычисления схожести релевантных запросу пользователя фрагментов (сниппетов) и атрибутов (заголовков). Формулируется математическая постановка задачи поиска нечетких дубликатов в больших репозиториях данных. Исследуется эффективность применения различных функций схожести на основе дистанции редактирования и векторной модели документа. Предлагается использование динамических функций вычисления общей схожести веб-документов. Полученные результаты позволяют говорить о высокой эффективности предложенного подхода и целесообразности его применения для существенного улучшения качества ответа поисковой машины на запрос пользователя.
The research is devoted to investigating a technique of online fuzzy duplicate web-documents detection by computing the similarity of document fragments (snippets) and attributes (titles) relevant to a user’s request. It formally states a mathematical problem for locating fuzzy duplicates in huge data repositories. It explores the efficiency of different similarity functions based either on editing distance or vector-space document model. It then introduces the usage of dynamic functions to improve the calculation of overall document similarity. It concludes by exposing results that prove the high efficiency and improved adequacy of search results to user requests when compared to existing search engine solutions, while delivering productivity levels that are on a par with existing production quality systems.
Ключевые слова: ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
URI: http://elar.urfu.ru/handle/10995/1351
ISBN: 978-5-7525-1788-5
Источники: Интернет-математика 2007. — Екатеринбург, 2007
Располагается в коллекциях:Информационный поиск

Файлы этого ресурса:
Файл Описание РазмерФормат 
IMAT_2007_24.pdf477,42 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.