Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
остатки лекций по иту для тестирования.doc
Скачиваний:
26
Добавлен:
02.12.2018
Размер:
782.34 Кб
Скачать

5. Системы индексирования

Система индексирования - это совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

  • ручного индексирования;

  • автоматического индексирования;

  • автоматизированного индексирования.

2. По степени контролируемости различают системы:

  • без словаря;

  • с жестким словарем;

  • со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

  • с последовательным просмотром текста (отбираются все полнозначные слова);

  • с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

  • со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления) и другие.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе тезауруса. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

6. Полнотекстовые информационно-поисковые системы

Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.

Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий. В результате на рынке программных продуктов появились полнотекстовые информационные системы.

Полнотекстовые информационные системы строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых информационные системы включает:

  • хранилище документов;

  • глобальный словарь системы;

  • инвертированный индекс документов;

  • интерфейс ввода документов в систему;

  • механизм индексирования;

  • интерфейс запросов пользователя;

  • механизм поиска документов;

  • механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.

Глобальный словарь системы может быть статическим и динамическим. Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище. Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие документы подвергаются операции индексирования по глобальному словарю.

В результате индексирования поисковый образ каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа. Индекс отражает весь текст документа. При удалении документа из системы удаляется и поисковый образ документа.

Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству («Консультант Плюс», «Гарант»).