Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1388
Title: Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка
Other Titles: Word-sense disambiguation in mass media texts: shallow rules and statistic evaluation
Authors: Кобрицов, Б. П.
Ляшевская, О. Н.
Шеманаева, О. Ю.
Issue Date: 2005
Publisher: б. и.
Citation: Кобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 38-57.
Abstract: Задачу снятия лексико-семантической омонимии (word-sense disambiguation) [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 и др.] в семантически размеченных текстах предлагается решать с помощью поверхностных фильтров, или жестких правил-шаблонов (Weiss 1973). Эти правила дают наибольшую точность результатов, но в то же время считаются наиболее трудоемкими. Наш метод комбинирует автоматическое построение БД высокочастотных устойчивых коллокаций с их последующим (полу)ручным аннотированием. В качестве исходного материала выбран корпус публицистики, поскольку в таких текстах особенно велика доля языковых штампов (вступить в силу, уровень жизни и т. д.). В настоящее время построена система фильтров, основанная на 4500 частотных устойчивых сочетаниях слов. Эксперименты по применению поверхностных фильтров для разных подкорпусов показывают уменьшение омонимии от 3,3 до 6%.
This report presents a method of word sense disambiguation [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 etc.] that uses shallow rules, or rigid patterns (Weiss 1973). These rules provide the highest degree of accuracy but at the same time they are considered to be most labour-concuming. We explore the method of automatic compiling of the high-frequency stable collocations database combined with its subsequent (half)manual annotating. The corpus of mass media text serves as a source of our investigation, because the portion of stock phrases as vstupit’ v silu ‘join into force’, uroven’ zhizni ‘standard of living’ is particularly great in news, newspapers and journals. At present, the system of 4500 shallow rules is constructed. Our experiments on applying shallow rules to various subcorpora show that semantic ambiguity is reduced from 3,3 до 6%.
Keywords: ЛЕКСИКО-СЕМАНТИЧЕСКАЯ ОМОНИМИЯ
РАЗРЕШЕНИЕ НЕОДНОЗНАЧНОСТИ
УСТОЙЧИВЫЕ КОЛЛОКАЦИИ
НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
СЕМАНТИЧЕСКАЯ РАЗМЕТКА
WORD-SENSE DISAMBIGUATION
WSD
MULTI-WORD EXPRESSIONS
RUSSIAN NATIONAL CORPUS
SEMANTIC ANNOTATION
URI: http://hdl.handle.net/10995/1388
http://elar.urfu.ru/handle/10995/1388
Origin: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2005_03.pdf336,9 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.