Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1419
Название: Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой
Другие названия: Web-page Automatic Classification in Internet Catalog with Hierarchic Structure
Авторы: Дунаев, Е. В.
Шелестов, А. А.
Дата публикации: 2005
Издатель: б. и.
Библиографическое описание: Дунаев Е. В. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой / Е. В. Дунаев, А. А. Шелестов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 382-398.
Аннотация: В статье рассмотрено применение статистических методов автоматической рубрикации (классификации) web-страниц в многоуровневом иерархическом рубрикаторе интернет-каталога. Применение классического метода Байеса (naïve Bayes) оказывается затруднительным при больших объемах данных. Вместо него предлагается использовать метод на основе алгоритма PrTFIDF, который так же заключается в вычислении условных вероятностей принадлежности документа рубрике. Эксперименты производились на основе данных интернет-каталога Яндекс. Результаты экспериментов позволяют сделать вывод о возможности успешного применения метода.
Use of web pages automatic classification statistical methods is described in the article. Application of classical naive Bayes method becomes difficult with huge data volumes. The method based on algorithm PrTFIDF is proposed to use, which is also in conditional probability calculation of rubric document belonging. Experiments were executed with data based on Yandex web-catalog. Based on results it is possible to conclude about possibility of successful method application.
URI: http://elar.urfu.ru/handle/10995/1419
Источники: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:Информационный поиск

Файлы этого ресурса:
Файл Описание РазмерФормат 
IMAT_2005_20.pdf276,9 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.