21-10-2013_12-14-44 / Лекция Инф_поиск
.pdfИнформационный поиск как наука
•Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна,лингвистики, семиотики, и библиотечного дела.
•Поиск информации — процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.
•ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.
•Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.
•В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.
Оценка эффективности информационного поиска
Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.
Оценка эффективности информационного поиска
На этом рисунке релевантные точки (rel) находятся слева от прямой, а точки, найденные поисковой системой (retr), находятся в овале. Области красного цвета представляют ошибки поисковой системы. Красная область слева — это релевантные точки, не найденные системой (пропуск события), красная область справа — найденные, но нерелевантные точки (ложная тревога).Точность — это пропорция левой зелёной области по отношению к овалу (горизонтальная стрелка). Полнота — это пропорция левой зелёной области к области слева от прямой (диагональная стрелка).
Оценка эффективности информационного поиска
• Точность (precision)
Определяется как отношение числа релевантных документов, найденных ИПС,
к общему числу найденных документов:
,где — это множество релевантных документов в базе, а — множество документов, найденных системой. По результатам исследований компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.
Оценка эффективности информационного поиска
•Полнота (recall)
•Отношение числа найденных релевантных документов,
к общему числу релевантных документов в базе:
•,где — это множество релевантных документов в базе, а — множество документов, найденных системой.
Оценка эффективности информационного поиска
•Выпадение (fall-out)
•Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:
•,где — это множество нерелевантных документов в базе, а — множество документов, найденных системой.
Оценка эффективности информационного поиска
•F-мера (F-measure, мера Ван Ризбергена)
•Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.
•Поэтому хорошей мерой для совместной оценки точности и полноты является F-мера, которая определяется как взвешенное гармоническое среднее точности P и полноты R:
•Обычно F-меру записывают в виде
•При либо F-мера придает одинаковый вес точности и полноте и называется сбалансированной или -мерой (в нижнем индексе принято указывать величину ), выражение для неё упрощается
•Использование сбалансированной F-меры не является обязательным: при предпочтение отдаётся точности, а при больший вес приобретает полнота.
Оценка эффективности информационного поиска
Литература
•Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. — AddisonWesley, 1999. — ISBN 0-201-39829-X
•Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval. — Cambridge University Press, 2008. — ISBN 0-521-86571-9
•Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5
•Ландэ Д. В., Снарский А. А., Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. —ISBN 978-5-397-00497-8
http://edu.nstu.ru/courses/ibo/posobie.htm.
Блюменау Д.И. Информационный анализ/синтез для формирования вторичного потока документов: Учеб.-практ. пособие /Д.И. Блюменау. - СПб.: Профессия, 2002.- 235 с.
http://www.slideshare.net/msucsai/ss-5391518
Оценка эффективности информационного поиска