Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1388
Full metadata record
DC FieldValueLanguage
dc.contributor.authorКобрицов, Б. П.ru
dc.contributor.authorЛяшевская, О. Н.ru
dc.contributor.authorШеманаева, О. Ю.ru
dc.date.accessioned2008-11-20T10:58:51Z-
dc.date.available2008-11-20T10:58:51Z-
dc.date.issued2005-
dc.identifier.citationКобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 38-57.ru
dc.identifier.urihttp://hdl.handle.net/10995/1388-
dc.identifier.urihttp://elar.urfu.ru/handle/10995/1388en
dc.description.abstractЗадачу снятия лексико-семантической омонимии (word-sense disambiguation) [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 и др.] в семантически размеченных текстах предлагается решать с помощью поверхностных фильтров, или жестких правил-шаблонов (Weiss 1973). Эти правила дают наибольшую точность результатов, но в то же время считаются наиболее трудоемкими. Наш метод комбинирует автоматическое построение БД высокочастотных устойчивых коллокаций с их последующим (полу)ручным аннотированием. В качестве исходного материала выбран корпус публицистики, поскольку в таких текстах особенно велика доля языковых штампов (вступить в силу, уровень жизни и т. д.). В настоящее время построена система фильтров, основанная на 4500 частотных устойчивых сочетаниях слов. Эксперименты по применению поверхностных фильтров для разных подкорпусов показывают уменьшение омонимии от 3,3 до 6%.ru
dc.description.abstractThis report presents a method of word sense disambiguation [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 etc.] that uses shallow rules, or rigid patterns (Weiss 1973). These rules provide the highest degree of accuracy but at the same time they are considered to be most labour-concuming. We explore the method of automatic compiling of the high-frequency stable collocations database combined with its subsequent (half)manual annotating. The corpus of mass media text serves as a source of our investigation, because the portion of stock phrases as vstupit’ v silu ‘join into force’, uroven’ zhizni ‘standard of living’ is particularly great in news, newspapers and journals. At present, the system of 4500 shallow rules is constructed. Our experiments on applying shallow rules to various subcorpora show that semantic ambiguity is reduced from 3,3 до 6%.ru
dc.format.extent344984 bytesen
dc.format.mimetypeapplication/pdfen
dc.language.isoruen
dc.publisherб. и.ru
dc.relation.ispartofИнтернет-математика 2005: автоматическая обработка веб-данных. — М., 2005ru
dc.subjectЛЕКСИКО-СЕМАНТИЧЕСКАЯ ОМОНИМИЯru
dc.subjectРАЗРЕШЕНИЕ НЕОДНОЗНАЧНОСТИru
dc.subjectУСТОЙЧИВЫЕ КОЛЛОКАЦИИru
dc.subjectНАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКАru
dc.subjectСЕМАНТИЧЕСКАЯ РАЗМЕТКАru
dc.subjectWORD-SENSE DISAMBIGUATIONen
dc.subjectWSDen
dc.subjectMULTI-WORD EXPRESSIONSen
dc.subjectRUSSIAN NATIONAL CORPUSen
dc.subjectSEMANTIC ANNOTATIONen
dc.titleСнятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценкаru
dc.title.alternativeWord-sense disambiguation in mass media texts: shallow rules and statistic evaluationen
dc.typeArticleen
dc.typeinfo:eu-repo/semantics/articleen
dc.typeinfo:eu-repo/semantics/publishedVersionen
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2005_03.pdf336,9 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.