Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lk_poisk_ex.doc
Скачиваний:
355
Добавлен:
04.06.2015
Размер:
1.39 Mб
Скачать

Курс лекций

по дисциплине

Технологии поиска информации

для бакалавров специальности ИС первого курса

Разработала доцент кафедры ИС

Абасова Н.И.

Иркутск 2012 Оглавление

Введение 3

1. Основные принципы технологии поиска информации 4

1.1 Понятия и определения 4

1.2 Информационная потребность пользователя 5

1.3 Релевантность 7

1.4 Общая схема процесса поиска 9

2. Представление информации в ИПС 11

2.1. Индексирование документов 11

2.2. Векторная модель текста 12

2.3. Статистический анализ текстов. Закон Ципфа 13

2.4. Анализ информационных массивов 17

2.4.1. Понятие относительной частоты 17

2.4.2 Распределение частоты встречаемости терминов 18

2.4.3 Определение весов терминов 20

2.4.4 Частотная модель 21

2.4.5 Вероятностная модель 22

2.4.6 Латентно-семантический анализ 23

2.5 Хранение индексированных документов 24

3 Модели поиска информации 27

3.1 Булева модель поиска 28

3.2 Функции подобия "документ-запрос" 31

3.2.1 Алгоритм расширенного булевого поиска 32

3.2.2 Алгоритм наибольшего цитирования 33

3.2.3 Векторный алгоритм поиска 34

3.2.4 Расширенный векторный алгоритм поиска 35

4. Классификация документов 35

4.1. Основные свойства классификации 37

4.2 Формирование рубрик 39

5 Эффективность поисковых систем 41

5.1 Критерии эффективности 41

5.2. Полнота и точность поиска 43

5.3. Недостатки основных характеристик 46

6 Современные информационно-поисковые системы 48

6.1. Словарные информационно-поисковые системы 49

6.2 Классификационные информационно-поисковые системы 52

6.3. Метапоисковые системы 55

Заключение 57

Список рекомендуемой литературы 59

Экзаменационные вопросы 60

Введение

Очень давно человек впервые задумался о том, как хранить знания для дальнейшего удобного и эффективного использования. Классический пример этого – оглавление книги, которое делает возможным быстрый доступ к любому интересующему нас разделу.

С ростом числа книг возникла необходимость в более удобных способах хранения. В библиотеках появились каталоги, или индексы – наборы ключевых слов или понятий, связанные с коллекциями книг и других документов. С помощью каталогов доступ к информации становится достаточно простым, а скорость его относительно велика. Тем не менее, решение задач по поиску информации было в основном уделом работников библиотек и специалистов по теории поиска.

В ХХ веке развитие информационных технологий повлияло на все сферы человеческой жизни. Не стал исключением и информационный поиск. В 60 и 70е годы для ускорения процессов каталогизации и поиска появились первые автоматизированные информационно-поисковые системы (ИПС). Они применялись в каталогах и информационных отделах крупных библиотек. Тогда и начались серьезные исследования теории и практики информационного поиска и построения ИПС (английское обозначение информационно-поисковых систем – information storage and retrieval systems, information retrieval systems).

Говоря об ИПС, следует разделять понятия «поиск информации» и «поиск данных». Поиск информации – это более широкое понятие, допускающее более мягкие критерии соответствия искомой информации потребности пользователя. В отличие от систем поиска данных, которые имеют дело со строго формализованными данными и запросами, ИПС работают с информационными объектами разной (чаще всего небольшой) степени формализованности, в основном с текстами на естественном языке. Точность работы ИПС определяется релевантностью найденных документов, четкого однозначного критерия которой не существует

За последние десять лет область информационного поиска значительно расширилась. Создание электронных библиотек на базе крупнейших мировых хранилищ информации, развитие систем мультимедийного поиска, широкое внедрение систем управления документами и т. п. являются стимулом для непрерывного совершенствования технологий поиска информации.

Однако наиболее революционным событием стало зарождение и развитие сети Интернет. В 90-е гг. ХХ в. человечество получило доступ к огромному массиву информации в самых разных предметных областях – миллионам связанных документов, которые расположены на компьютерах по всему миру. Интернет сегодня – это неструктурированное распределенное хранилище динамичной информации громадного объёма, в котором постоянно добавляются новые документы, а устаревшие редактируются или удаляются.

Колоссальное и непрерывно растущее количество информации приводит к тому, что обеспечение поиска в Интернете становится критически важной задачей.

Однако без соответствующих поисковых средств проблема поиска в сети необходимой информации становится в настоящее время практически неразрешимой.

Появление поисковых систем сети Интернет стало новым этапом в развитии информационного поиска. Сегодня ИПС сети Интернет эффективно применяют разработанные за много лет методы поиска информации. Более 75% пользователей пользуются ИПС для поиска информации в Интернете. В то же время специфика природы сети Интернет и ее непрерывное развитие ставят перед исследователями новые задачи, многие из которых не решены до сих пор.

Современные теоретические и практические исследования информационного поиска сконцентрированы вокруг нескольких крупных международных конференций. К ним относятся серия конференций TREC (Text Retrieval Conference), проводимая институтом NIST(NationalInstituteforStandardsandTechnology) США, конференцииSIGIR(SpecialInterestGrouponInformationRetrieval), организованные международной группой исследователей и разработчиков технологий информационного поиска ACM (Association of Computing Machinery), а также конференция, которая занимается различными проблемами, связанными с Интернет – WWW Conference. В России по вопросам информационного поиска ежегодно проводится конференция «Электронные библиотеки (RCDL)».

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]