Анализ «лабораторной» парадигмы оценки систем поиска

Некрестьянов, И.; Некрестьянова, М.; Нозик, А.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/1409

Название:	Анализ «лабораторной» парадигмы оценки систем поиска
Другие названия:	Analysis of Cranfield approach to IR system evaluation on ROMIP data
Авторы:	Некрестьянов, И. Некрестьянова, М. Нозик, А.
Дата публикации:	2005
Издатель:	б. и.
Библиографическое описание:	Некрестьянов И. Анализ «лабораторной» парадигмы оценки систем поиска / И. Некрестьянов, М. Некрестьянова, А. Нозик // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 189-215.
Аннотация:	В отчете представлены предварительные результаты экспериментального анализа некоторых методологических аспектов «лабораторной» парадигмы оценки систем информационного поиска. Исследование оценки методом «общего котла» проводилось на основе материалов семинара РОМИП за 2003 и 2004 годы. Рассматривались следующие вопросы: Насколько эффективен метод «общего котла»? Как параметры эксперимента влияют на выводы? До какой степени можно использовать полученные таблицы релевантности для оценки других систем? Насколько на результат влияет «человеческий фактор»? Большинство опубликованных исследований схожих методологических вопросов проводились на основе данных TREC. Целью этой работы являлось не только получение новых результатов, но также и проверка уже опубликованных выводов на альтернативных данных. This work focuses on evaluation of pooling-based methodology widely used to evaluate information retrieval systems. Number of previous works studied pooling characteristics and impact based on TREC data. In our research we are using results of first two years of Russian Information Retrieval Seminar (ROMIP) (see also http://romip.narod.ru). Four main groups of questions are considered: Is pooling effective way to reduce evaluation costs for all participants? Does it provide good approximation of set of relevant documents? How reliable are results of such experiments? Will conclusions change if some experiment parameters will be changed? E.g. if other queries will be judged. Are resulted collections and relevance tables are reusable? Can they be used to reasonable evaluate system run omitted from pool? To which extent “human factors” (such as subjectivity) can have an effect on the evaluation of retrieval results? What may change if other assessors will be judging system results? Does increasing number of assessors help to improve stability? Some of these questions were considered earlier using TREC data. We are interested to verify some of published results as well as to see if ROMIP-based dependencies are similar to TREC ones. Most of our results are in line with previous research. Therefore we mention only few specific ones here: Calculated quantitative estimations of minimal difference in scores for main metrics on ROMIP data. Shown that evaluation of system omitted from the pool is reasonably reliable for ROMIP data. Proved that random errors in assessor judgments do not have significant impact on conclusions. Demonstrated that individual assessor can make the difference in the conclusions and redundant assessment helps to improve stability.
URI:	http://elar.urfu.ru/handle/10995/1409
Источники:	Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
Располагается в коллекциях:	Информационный поиск

Файлы этого ресурса:

Файл	Описание	Размер	Формат
IMAT_2005_10.pdf		480,93 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика Google Scholar

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.