4. Системы индексирования

Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

• ручного индексирования;

• автоматического индексирования;

• автоматизированного индексирования.

2. По степени контролируемости различают системы:

• без словаря;

• с жестким словарем;

• со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

• с последовательным просмотром текста (отбираются все полнозначные слова);

• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

• со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

• без лексикографического контроля;

• с полным контролем;

• с промежуточным контролем. Лексикографический контроль предусматривает :

* устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

* нормализацию слов на основе морфологических нормативных словарей.

5. По характеру морфологического анализа слов различают системы:

* с использованием морфологических словарей;

* с использованием основных лексических словарей;

* с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению,отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста.Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которыемогли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяетсяв системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в текстедокумента ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.

Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке лекции ИС

#
26.05.2015342.53 Кб63DATA MINING системы поиска знаний.doc
#
26.05.201540.96 Кб39Knowledge Discovery in Databases.doc
#
26.05.201545.57 Кб53Аналитический обзор BI-систем.doc
#
26.05.201564.51 Кб43АСУ.doc
#
26.05.201533.28 Кб49Бизнес-анализ.doc
#
26.05.2015156.67 Кб69документально-поисковые системы.doc
#
26.05.2015265.28 Кб36Информационная система классификация.mht
#
26.05.2015169.98 Кб101Информационные системы на рынке ценных бумаг.doc
#
26.05.2015177.66 Кб73Информационные системы.doc
#
26.05.201536.86 Кб47классификация ИС.doc
#
26.05.2015523.26 Кб66Лекция 6_Документальные информационные системы.ppt