Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

21-10-2013_12-14-44 / Лекция Инф_поиск

.pdf
Скачиваний:
16
Добавлен:
26.03.2015
Размер:
492.68 Кб
Скачать

Информационный поиск как наука

Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна,лингвистики, семиотики, и библиотечного дела.

Поиск информации — процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.

ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Оценка эффективности информационного поиска

Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

Оценка эффективности информационного поиска

На этом рисунке релевантные точки (rel) находятся слева от прямой, а точки, найденные поисковой системой (retr), находятся в овале. Области красного цвета представляют ошибки поисковой системы. Красная область слева — это релевантные точки, не найденные системой (пропуск события), красная область справа — найденные, но нерелевантные точки (ложная тревога).Точность — это пропорция левой зелёной области по отношению к овалу (горизонтальная стрелка). Полнота — это пропорция левой зелёной области к области слева от прямой (диагональная стрелка).

Оценка эффективности информационного поиска

Точность (precision)

Определяется как отношение числа релевантных документов, найденных ИПС,

к общему числу найденных документов:

,где — это множество релевантных документов в базе, а — множество документов, найденных системой. По результатам исследований компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.

Оценка эффективности информационного поиска

Полнота (recall)

Отношение числа найденных релевантных документов,

к общему числу релевантных документов в базе:

,где — это множество релевантных документов в базе, а — множество документов, найденных системой.

Оценка эффективности информационного поиска

Выпадение (fall-out)

Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

,где — это множество нерелевантных документов в базе, а — множество документов, найденных системой.

Оценка эффективности информационного поиска

F-мера (F-measure, мера Ван Ризбергена)

Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.

Поэтому хорошей мерой для совместной оценки точности и полноты является F-мера, которая определяется как взвешенное гармоническое среднее точности P и полноты R:

Обычно F-меру записывают в виде

При либо F-мера придает одинаковый вес точности и полноте и называется сбалансированной или -мерой (в нижнем индексе принято указывать величину ), выражение для неё упрощается

Использование сбалансированной F-меры не является обязательным: при предпочтение отдаётся точности, а при больший вес приобретает полнота.

Оценка эффективности информационного поиска

Литература

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. — AddisonWesley, 1999. — ISBN 0-201-39829-X

Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval. — Cambridge University Press, 2008. — ISBN 0-521-86571-9

Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5

Ландэ Д. В., Снарский А. А., Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. ISBN 978-5-397-00497-8

http://edu.nstu.ru/courses/ibo/posobie.htm.

Блюменау Д.И. Информационный анализ/синтез для формирования вторичного потока документов: Учеб.-практ. пособие /Д.И. Блюменау. - СПб.: Профессия, 2002.- 235 с.

http://www.slideshare.net/msucsai/ss-5391518

Оценка эффективности информационного поиска

Соседние файлы в папке 21-10-2013_12-14-44