Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1350
Title: Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту
Other Titles: Web-directory automatic resource discovery based on the web-communities identification followed by documents content filtering
Authors: Сычев, А. В.
Баженов, М. М.
Issue Date: 2007
Publisher: Изд-во Урал. ун-та
Citation: Сычев, А. В. Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту / А. В. Сычев, М. М. Баженов // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 200–210.
Abstract: В отчете приводятся результаты исследования, проведенного в рамках конкурса «Интернет-математика 2007». Отчет содержит описание задачи, методов исследования, эксперимента и его результатов. В частности рассмотрены свойства веб-графов для различных рубрик, исследовано влияние схемы отбора зерновых ресурсов на качество выявляемых компонент сильной связности. Рассмотрено применение предложенного авторами подхода для уточнения результатов поиска в ИПС.
The paper presents results of experimental research of an approach proposed by authors for an automatic web-directory resource discovery. Using data sets gathered from Yandex web-directory (http://yaca.yandex.ru) some properties of web-graphs constructed by crawler from seed resources taken from directory rubrics are examined. Some methods for web-crawling efficiency enhancing when constructing web-graph from seeds are tested. Also two approaches for seeds selection from web-directory rubrics were examined. It was demonstrated that seeds selected from from web-directory have rather different importance for the automatic resource discovery. The number of inlinks of seeds may be considered approximately like indirect indicator of its importance. The approach and software tools developed for research can be applied for web-directory rubrics structure diagnostics and web-resources distribution optimization. An application of the approach for the IR relevancy enhancing is discussed and tested.
Keywords: ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
URI: http://hdl.handle.net/10995/1350
http://elar.urfu.ru/handle/10995/1350
ISBN: 978-5-7525-1788-5
Origin: Интернет-математика 2007. — Екатеринбург, 2007
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2007_23.pdf563,48 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.