Please use this identifier to cite or link to this item:
http://elar.urfu.ru/handle/10995/1418
Title: | Классификация веб-страниц на основе алгоритмов машинного обучения |
Authors: | Борисова, П. В. Мышков, П. С. Незлобин, А. А. Петров, А. Д. |
Issue Date: | 2005 |
Publisher: | б. и. |
Citation: | Борисова П. В. Классификация веб-страниц на основе алгоритмов машинного обучения / П. В. Борисова, П. С. Мышков, А. А. Незлобин, А. Д. Петров // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 364-381. |
Abstract: | Долгое время появлявшиеся в литературе алгоритмы категоризации веб-страниц оставались в тени метода ключевых слов, который работал достаточно эффективно с англо-язычными сайтами. Поэтому возможности применения к этой задаче появившихся недавно алгоритмов классификации были недостаточно хорошо изучены [2,5,3]. Так, например, строковое ядро (String Subsequence Kernel, SSK) получило большее распространение в биоинформатике для классификации протеинов, нежели в веб-программировании для категоризации веб-страниц. Такие новые методы были непопулярны также из-за их несоответствия высоким требованиям к производительности, предъявляемых интернет-системам. Однако, при наличии должной оптимизации такие алгоритмы могут открыть новые возможности для создания простых в разработке категоризаторов, которые будут эффективны даже для языков со сложной морфологией и грамматикой. В данной работе приведён пример такого рода оптимизаций и предложено два классификатора, их реализующих. Результаты, полученные на практических тестах, очевидные возможности масштабирования, заложенные в эти алгоритмы – всё это даёт повод надеяться, что дальнейшее изучение этого вопроса окажется плодотворным. Novel algorithms of web-page classification have been dominated by widely accepted keyword approach for a long time. The keyword approach has proved to be sufficiently effective for English web-pages. Therefore recently published classification algorithms have not been addressed in web-page classification research at an appropriate scale [2,5,3]. For instance, String Subsequence Kernel (SSK) received much larger attention in Bioinformatics for gene and protein classification than in web-programming for web-page categorization. Such novel methods have proved to be unpopular among Internet system providers also because of their high computational requirements. However, with application of certain optimization approaches, such algorithms can bring development of classification systems to a new level, where high efficiency can be achieved even for languages with complex morphology and grammar. This work represents an example of such optimization attempt and it provides two different realizations for such classifiers. Positive characteristics of presented results and scaling properties of these algorithms encourage further research in this area. |
URI: | http://elar.urfu.ru/handle/10995/1418 |
Origin: | Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005 |
Appears in Collections: | Информационный поиск |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
IMAT_2005_19.pdf | 354,34 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.