Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1388
Название: Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка
Другие названия: Word-sense disambiguation in mass media texts: shallow rules and statistic evaluation
Авторы: Кобрицов, Б. П.
Ляшевская, О. Н.
Шеманаева, О. Ю.
Дата публикации: 2005
Издатель: б. и.
Библиографическое описание: Кобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 38-57.
Аннотация: Задачу снятия лексико-семантической омонимии (word-sense disambiguation) [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 и др.] в семантически размеченных текстах предлагается решать с помощью поверхностных фильтров, или жестких правил-шаблонов (Weiss 1973). Эти правила дают наибольшую точность результатов, но в то же время считаются наиболее трудоемкими. Наш метод комбинирует автоматическое построение БД высокочастотных устойчивых коллокаций с их последующим (полу)ручным аннотированием. В качестве исходного материала выбран корпус публицистики, поскольку в таких текстах особенно велика доля языковых штампов (вступить в силу, уровень жизни и т. д.). В настоящее время построена система фильтров, основанная на 4500 частотных устойчивых сочетаниях слов. Эксперименты по применению поверхностных фильтров для разных подкорпусов показывают уменьшение омонимии от 3,3 до 6%.
This report presents a method of word sense disambiguation [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 etc.] that uses shallow rules, or rigid patterns (Weiss 1973). These rules provide the highest degree of accuracy but at the same time they are considered to be most labour-concuming. We explore the method of automatic compiling of the high-frequency stable collocations database combined with its subsequent (half)manual annotating. The corpus of mass media text serves as a source of our investigation, because the portion of stock phrases as vstupit’ v silu ‘join into force’, uroven’ zhizni ‘standard of living’ is particularly great in news, newspapers and journals. At present, the system of 4500 shallow rules is constructed. Our experiments on applying shallow rules to various subcorpora show that semantic ambiguity is reduced from 3,3 до 6%.
Ключевые слова: ЛЕКСИКО-СЕМАНТИЧЕСКАЯ ОМОНИМИЯ
РАЗРЕШЕНИЕ НЕОДНОЗНАЧНОСТИ
УСТОЙЧИВЫЕ КОЛЛОКАЦИИ
НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
СЕМАНТИЧЕСКАЯ РАЗМЕТКА
WORD-SENSE DISAMBIGUATION
WSD
MULTI-WORD EXPRESSIONS
RUSSIAN NATIONAL CORPUS
SEMANTIC ANNOTATION
URI: http://elar.urfu.ru/handle/10995/1388
Источники: Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:Информационный поиск

Файлы этого ресурса:
Файл Описание РазмерФормат 
IMAT_2005_03.pdf336,9 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.