Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя

Цыганов, Н. Л.; Циканин, М. А.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1351

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Цыганов, Н. Л.	ru
dc.contributor.author	Циканин, М. А.	ru
dc.date.accessioned	2008-11-18T07:33:32Z	-
dc.date.available	2008-11-18T07:33:32Z	-
dc.date.issued	2007	-
dc.identifier.citation	Цыганов, Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Циканин // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 211–222.	ru
dc.identifier.isbn	978-5-7525-1788-5	-
dc.identifier.uri	http://elar.urfu.ru/handle/10995/1351	-
dc.description.abstract	В данной работе исследуется методика on-line поиска дубликатов веб-документов на основе вычисления схожести релевантных запросу пользователя фрагментов (сниппетов) и атрибутов (заголовков). Формулируется математическая постановка задачи поиска нечетких дубликатов в больших репозиториях данных. Исследуется эффективность применения различных функций схожести на основе дистанции редактирования и векторной модели документа. Предлагается использование динамических функций вычисления общей схожести веб-документов. Полученные результаты позволяют говорить о высокой эффективности предложенного подхода и целесообразности его применения для существенного улучшения качества ответа поисковой машины на запрос пользователя.	ru
dc.description.abstract	The research is devoted to investigating a technique of online fuzzy duplicate web-documents detection by computing the similarity of document fragments (snippets) and attributes (titles) relevant to a user’s request. It formally states a mathematical problem for locating fuzzy duplicates in huge data repositories. It explores the efficiency of different similarity functions based either on editing distance or vector-space document model. It then introduces the usage of dynamic functions to improve the calculation of overall document similarity. It concludes by exposing results that prove the high efficiency and improved adequacy of search results to user requests when compared to existing search engine solutions, while delivering productivity levels that are on a par with existing production quality systems.	ru
dc.format.extent	488883 bytes	en
dc.format.mimetype	application/pdf	en
dc.language.iso	ru	en
dc.publisher	Изд-во Урал. ун-та	ru
dc.relation.ispartof	Интернет-математика 2007. — Екатеринбург, 2007	ru
dc.subject	ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ	ru
dc.subject	ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ	ru
dc.subject	СБОРНИКИ СТАТЕЙ	ru
dc.title	Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя	ru
dc.title.alternative	Investigating techniques of fuzzy duplicate web-documents detection based on a user’s request.	en
dc.type	Article	en
dc.type	info:eu-repo/semantics/article	en
dc.type	info:eu-repo/semantics/publishedVersion	en
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
IMAT_2007_24.pdf		477,42 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Статистика Google Scholar

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.