Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков

Кузнецов, С. О.; Игнатов, Д. И.; Объедков, С. А.; Самохин, М. В.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1415

Название:	Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков
Другие названия:	Generating Clusters of Duplicate Documents: An Approach Based on Frequent Closed Itemsets
Авторы:	Кузнецов, С. О. Игнатов, Д. И. Объедков, С. А. Самохин, М. В.
Дата публикации:	2005
Издатель:	б. и.
Библиографическое описание:	Кузнецов С. О. Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков / С. О. Кузнецов, Д. И. Игнатов, С. А. Объедков, М. В. Самохин // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 302-319.
Аннотация:	Множество документов в Интернете имеют дубликаты, в связи с чем необходимы средства эффективного вычисления кластеров документов-дубликатов [1-5, 8-10, 13-14]. В работе исследуется применение алгоритмов Data Mining для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов. На основе экспериментальной работы делаются некоторые выводы о способе выбора параметров методов. A vast amount of documents in the Web have duplicates, which necessitates creation of efficient methods for computing clusters of duplicates [1-5, 8-10, 13-14]. In this paper some algorithms of Data Mining are used for constructing clusters of duplicate documents (duplicates), documents being represented by both syntactic and lexical methods. Series of experiments suggest some conclusions about choosing parameters of the methods.
URI:	http://elar.urfu.ru/handle/10995/1415
Источники:	Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
IMAT_2005_16.pdf		342,66 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика Google Scholar

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.