Please use this identifier to cite or link to this item: http://hdl.handle.net/10995/1329
Title: Применение декомпозиции на основе подстрок при построении индексов для поиска по сходству
Other Titles: Use of decomposition on the basis of substrings at construction of indexes for similarity search
Authors: Андрианов, И. А.
Минин, В. Н.
Issue Date: 2007
Publisher: Изд-во Урал. ун-та
Citation: Андрианов, И. А. Применение декомпозиции на основе подстрок при построении индексов для поиска по сходству / И. А. Андрианов, В. Н. Минин // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 16–24.
Abstract: Данная работа посвящена созданию обновляемого индекса для выполнения поиска по подмножеству регулярных выражений и сходству фрагментов текста. За основу взят индекс, использующий мультиграммы (подстроки переменной длины) в качестве индексируемых элементов. Разработаны алгоритмы, позволяющие эффективно изменять индекс при вставке и удалении данных. Также в работе рассматривается использование разреженных суффиксных деревьев для определения степени сходства документов — результатов поиска.
The given work considers creation of a changeable index for search on a subset of regular expressions and on similarity. For a basis we take an index using multigrams (strings of variable length) as indexed elements. We offer the algorithms allowing effectively to change an index at performance of an insert and removal of data. Also we show how to use sparse suffix trees for definition of similarity of search results.
Keywords: ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
URI: http://hdl.handle.net/10995/1329
http://elar.urfu.ru/handle/10995/1329
ISBN: 978-5-7525-1788-5
Origin: Интернет-математика 2007. — Екатеринбург, 2007
Appears in Collections:Информационный поиск

Files in This Item:
File Description SizeFormat 
IMAT_2007_03.pdf225,82 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.