Метод вероятностного морфологического анализа для задач полнотекстового индексированного поиска

Артемьев, К.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/2059

Название:	Метод вероятностного морфологического анализа для задач полнотекстового индексированного поиска
Другие названия:	Method of propabilistic morphologic analysis for the purpose of full-text index-supported search
Авторы:	Артемьев, К.
Дата публикации:	2008
Издатель:	Изд-во ТТИ ЮФУ
Библиографическое описание:	Артемьев К. Метод вероятностного морфологического анализа для задач полнотекстового индексированного поиска / К. Артемьев // II Российская летняя школа по информационному поиску RuSSIR’2008, 1 – 5 сентября 2008 г., Труды Второй Российской конференции молодых ученых по информационному поиску / [отв. за вып. А. Н. Каркищенко]. – Таганрог: Изд-во ТТИ ЮФУ, 2008. – C. 6-12.
Аннотация:	Рассматривается традиционный подход к задаче морфологического анализа слова, указываются его недостатки при применении в системах полнотекстового поиска. Предлагается алгоритм морфологического анализа слов для целей построения обратного индекса в задаче полнотекстового поиска, основанный на вероятностном подходе. Вводится понятие морфологической эквивалентности, рассматривается способ и формула для вычисления морфологической эквивалентности пары слов. Описывается эксперимент, доказывающий работоспособность алгоритма. Особенностями предложенного автором алгоритма являются его высокая скорость и нечувствительность к языковым и тематическим неоднородностям текстов в корпусе. Traditional approach to the task of morphologic analysis is reviewed, its disadvantages in conjunction with full-text search systems are outlined. Algorithm of morphologic analysis for the purpose of building reverse index in the task of the full text search based on probabilistic model is proposed. Concept of morphologic equivalency is introduced, the method and formula for its calculation for the pair of words is considered. Experiment proving workability of the algorithm is described, the method of finding the boundary value of K is outlined. The advantages of proposed algorithm are its speed, reliability and insensibility for language and thematic heterogeneity of the text corpus.
URI:	http://elar.urfu.ru/handle/10995/2059
Конференция/семинар:	Вторая Российская конференция молодых ученых по информационному поиску (RuSSIR'2008)
Дата конференции/семинара:	1.09.2008-5.09.2008
ISBN:	978-5-8327-0295-7
Источники:	RuSSIR 2008
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
RuSSIR_2008_02.pdf		134,17 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика Google Scholar

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.