Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1419
Title: Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой
Other Titles: Web-page Automatic Classification in Internet Catalog with Hierarchic Structure
Authors: Дунаев, Е. В.
Шелестов, А. А.
Issue Date: 2005
Publisher: б. и.
Citation: Дунаев Е. В. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой / Е. В. Дунаев, А. А. Шелестов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 382-398.
Abstract: В статье рассмотрено применение статистических методов автоматической рубрикации (классификации) web-страниц в многоуровневом иерархическом рубрикаторе интернет-каталога. Применение классического метода Байеса (naïve Bayes) оказывается затруднительным при больших объемах данных. Вместо него предлагается использовать метод на основе алгоритма PrTFIDF, который так же заключается в вычислении условных вероятностей принадлежности документа рубрике. Эксперименты производились на основе данных интернет-каталога Яндекс. Результаты экспериментов позволяют сделать вывод о возможности успешного применения метода.
Use of web pages automatic classification statistical methods is described in the article. Application of classical naive Bayes method becomes difficult with huge data volumes. The method based on algorithm PrTFIDF is proposed to use, which is also in conditional probability calculation of rubric document belonging. Experiments were executed with data based on Yandex web-catalog. Based on results it is possible to conclude about possibility of successful method application.
URI: http://hdl.handle.net/10995/1419
http://elar.urfu.ru/handle/10995/1419
Origin: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2005_20.pdf276,9 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.