Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИС / документально-поисковые системы.doc
Скачиваний:
69
Добавлен:
26.05.2015
Размер:
156.67 Кб
Скачать

4. Системы индексирования

Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с за­данным набором словарей лексических единиц и с правилами приме­нения ИПЯ

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

•  ручного индексирования;

•  автоматического индексирования;

•  автоматизированного индексирования.

2.     По степени контролируемости различают системы:

•   без словаря;

•   с жестким словарем;

•   со свободным словарем.

3.     По характеру алгоритма отбора слов текста выделяют системы:

•   с последовательным просмотром текста (отбираются все полнозначные слова);

•   с эвристическими процедурами выбора слов текста (слова от­бираются интуитивно или по заданной процедуре);

•   со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

•   без лексикографического контроля;

•   с полным контролем;

• с промежуточным контролем. Лексикографический контроль предусматривает :

*  устранение синонимии, полисемии и омонимии на основе норма­тивных словарей лексических единиц с парадигматическими от­ношениями между ними;

*  нормализацию слов на основе морфологических нормативных словарей.

5.    По характеру морфологического анализа слов различают системы:

*  с использованием морфологических словарей;

*  с использованием основных лексических словарей;

*  с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Инде­ксатор выписывает слова или словосочетания, которые, по его мнению,отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста.Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописан­ному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготов­ленными специалистами-экспертами в предметной области, которыемогли осуществлять глубокий анализ смыслового содержания доку­мента и относить его (индексировать) к тем или иным классам, руб­рикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифици­рованных специалистов-индексаторов. Кроме того, процесс индекси­рования в некоторой мере был субъективным. Поэтому возникла за­дача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Пер­вый основан на использовании словаря ключевых слов и применяетсяв системах на основе ИПТ. Индексирование в таких системах осуще­ствляется путем последовательного автоматического поиска в текстедокумента ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого ин­декса — прямой и инвертированный.

Прямой тип индекса строится по схеме «документ—термины». По­исковое пространство в этом случае представлено в виде матрицы раз­мерностью nxm. Строки этой матрицы представляют поисковые обра­зы документов.

Инвертированный тип индекса строится по обратной схеме — «тер­мин—документы». Поисковое пространство соответственно представ­лено аналогичной матрицей, только в транспонированной форме. По­исковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс за­носится информация обо всех словах текста документа (отсюда и на­звание «полнотекстовые»).