Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/2059
Title: Метод вероятностного морфологического анализа для задач полнотекстового индексированного поиска
Other Titles: Method of propabilistic morphologic analysis for the purpose of full-text index-supported search
Authors: Артемьев, К.
Issue Date: 2008
Publisher: Изд-во ТТИ ЮФУ
Citation: Артемьев К. Метод вероятностного морфологического анализа для задач полнотекстового индексированного поиска / К. Артемьев // II Российская летняя школа по информационному поиску RuSSIR’2008, 1 – 5 сентября 2008 г., Труды Второй Российской конференции молодых ученых по информационному поиску / [отв. за вып. А. Н. Каркищенко]. – Таганрог: Изд-во ТТИ ЮФУ, 2008. – C. 6-12.
Abstract: Рассматривается традиционный подход к задаче морфологического анализа слова, указываются его недостатки при применении в системах полнотекстового поиска. Предлагается алгоритм морфологического анализа слов для целей построения обратного индекса в задаче полнотекстового поиска, основанный на вероятностном подходе. Вводится понятие морфологической эквивалентности, рассматривается способ и формула для вычисления морфологической эквивалентности пары слов. Описывается эксперимент, доказывающий работоспособность алгоритма. Особенностями предложенного автором алгоритма являются его высокая скорость и нечувствительность к языковым и тематическим неоднородностям текстов в корпусе.
Traditional approach to the task of morphologic analysis is reviewed, its disadvantages in conjunction with full-text search systems are outlined. Algorithm of morphologic analysis for the purpose of building reverse index in the task of the full text search based on probabilistic model is proposed. Concept of morphologic equivalency is introduced, the method and formula for its calculation for the pair of words is considered. Experiment proving workability of the algorithm is described, the method of finding the boundary value of K is outlined. The advantages of proposed algorithm are its speed, reliability and insensibility for language and thematic heterogeneity of the text corpus.
URI: http://hdl.handle.net/10995/2059
http://elar.urfu.ru/handle/10995/2059
Conference name: Вторая Российская конференция молодых ученых по информационному поиску (RuSSIR'2008)
Conference date: 1.09.2008-5.09.2008
ISBN: 978-5-8327-0295-7
Origin: RuSSIR 2008
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
RuSSIR_2008_02.pdf134,17 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.