Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту

Сычев, А. В.; Баженов, М. М.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1350

Название:	Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту
Другие названия:	Web-directory automatic resource discovery based on the web-communities identification followed by documents content filtering
Авторы:	Сычев, А. В. Баженов, М. М.
Дата публикации:	2007
Издатель:	Изд-во Урал. ун-та
Библиографическое описание:	Сычев, А. В. Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту / А. В. Сычев, М. М. Баженов // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 200–210.
Аннотация:	В отчете приводятся результаты исследования, проведенного в рамках конкурса «Интернет-математика 2007». Отчет содержит описание задачи, методов исследования, эксперимента и его результатов. В частности рассмотрены свойства веб-графов для различных рубрик, исследовано влияние схемы отбора зерновых ресурсов на качество выявляемых компонент сильной связности. Рассмотрено применение предложенного авторами подхода для уточнения результатов поиска в ИПС. The paper presents results of experimental research of an approach proposed by authors for an automatic web-directory resource discovery. Using data sets gathered from Yandex web-directory (http://yaca.yandex.ru) some properties of web-graphs constructed by crawler from seed resources taken from directory rubrics are examined. Some methods for web-crawling efficiency enhancing when constructing web-graph from seeds are tested. Also two approaches for seeds selection from web-directory rubrics were examined. It was demonstrated that seeds selected from from web-directory have rather different importance for the automatic resource discovery. The number of inlinks of seeds may be considered approximately like indirect indicator of its importance. The approach and software tools developed for research can be applied for web-directory rubrics structure diagnostics and web-resources distribution optimization. An application of the approach for the IR relevancy enhancing is discussed and tested.
Ключевые слова:	ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ СБОРНИКИ СТАТЕЙ
URI:	http://elar.urfu.ru/handle/10995/1350
ISBN:	978-5-7525-1788-5
Источники:	Интернет-математика 2007. — Екатеринбург, 2007
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
IMAT_2007_23.pdf		563,48 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.