Автоматизация построения словаря на материале массива несловарных словоформ

Ляшевская, О. Н.; Сичинава, Д. В.; Кобрицов, Б. П.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1340

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Ляшевская, О. Н.	ru
dc.contributor.author	Сичинава, Д. В.	ru
dc.contributor.author	Кобрицов, Б. П.	ru
dc.date.accessioned	2008-11-18T06:41:27Z	-
dc.date.available	2008-11-18T06:41:27Z	-
dc.date.issued	2007	-
dc.identifier.citation	Ляшевская, О. Н. Автоматизация построения словаря на материале массива несловарных словоформ / О. Н. Ляшевская, Д. В. Сичинава, Б. П. Кобрицов // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 118–125.	ru
dc.identifier.isbn	978-5-7525-1788-5	-
dc.identifier.uri	http://elar.urfu.ru/handle/10995/1340	-
dc.description.abstract	Несловарные формы — единицы текста, отсутствующие в словаре программы морфологического анализа — представляют проблему как для автоматического парсинга текста, так и для создания словарей, основанных на текстовых корпусах. Алгоритм их лемматизации объединяет несловарные словоформы в кластеры, которым сопоставляется информация о части речи, исходной форме и других грамматических характеристиках лексемы. Процедура кластеризации включает порождение множества гипотез для каждой словоформы в соответствии с моделью русского словоизменения А. А. Зализняка и выбор в качестве наиболее вероятной той, которая чаще всего повторяется в разборах других словоформ массива. Оценка эффективности алгоритма проводилась на материале словника Национального корпуса русского языка и набора данных «База словоформ Яндекса».	ru
dc.description.abstract	Text tokens that are not represented in the dictionary of a morphological parser pose a problem both for the automatic analysis of texts and for the compiling of corpora-based dictionaries. We evaluate an algorithm according to which unknown word forms are grouped in clusters and associated with part of speech, base form and other grammatical information. The clusterization procedure consists in generation of multiple hypotheses for each word form in compliance with A. A. Zahzmak’s Russian derivational model and weighting up the frequency of hypotheses throughout the whole domain. The evaluation of the algorithm efficiency is set up on the concordance of the Russian National Corpus and the dataset 'Yandex bank of word forms'.	ru
dc.format.extent	228865 bytes	en
dc.format.mimetype	application/pdf	en
dc.language.iso	ru	en
dc.publisher	Изд-во Урал. ун-та	ru
dc.relation.ispartof	Интернет-математика 2007. — Екатеринбург, 2007	ru
dc.subject	ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ	ru
dc.subject	ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ	ru
dc.subject	СБОРНИКИ СТАТЕЙ	ru
dc.title	Автоматизация построения словаря на материале массива несловарных словоформ	ru
dc.title.alternative	Automatic enlargement of a dictionary: from the set of unknown word forms to the lemmatized list	en
dc.type	Article	en
dc.type	info:eu-repo/semantics/article	en
dc.type	info:eu-repo/semantics/publishedVersion	en
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
IMAT_2007_14.pdf		223,5 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Статистика

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.