- •Предисловие
- •1. Основы информационного обеспечения процессов и систем
- •1.1. Понятие и содержание информационного обеспечения
- •1.2. Структура и классификация информационных систем
- •1.3. Система представления и обработки данных фактографических аис
- •Вопросы и упражнения
- •2. Системы управления базами данных фактографических информационных систем
- •2.1. Функции, классификация и структура субд
- •2.2. Модели организации данных
- •2.2.1. Иерархическая и сетевая модели организации данных
- •2.2.2. Реляционная модель организации данных
- •2.3. Внутренняя схема баз данных фактографических аис
- •2.3.1. Физические структуры данных
- •2.3.2. Индексирование данных
- •2.3.3. Расстановка (хеширование) записей
- •Вопросы и упражнения
- •3. Основы создания автоматизированных информационных систем
- •3.1. Общие положения по созданию автоматизированных систем
- •3.2. Проектирование банков данных фактографических аис
- •3.2.1. Концептуальное проектирование
- •3.2.2. Проектирование схем реляционных баз данных
- •3.2.2.1. Проектирование и создание таблиц
- •3.2.2.2. Нормализация таблиц
- •Вопросы и упражнения
- •4. Ввод, обработка и вывод данных в фактографических аис
- •4.1. Языки баз данных
- •4.2. Ввод, загрузка и редактирование данных
- •4.2.1. Ввод и редактирование данных в реляционных субд
- •4.2.2. Особенности ввода и загрузки данных в субд с сетевой моделью организации данных
- •4.3. Обработка данных
- •4.3.1. Поиск, фильтрация и сортировка данных
- •4.3.2. Запросы в реляционных субд
- •4.3.2.1. Запросы на выборку данных
- •4.3.2.1.1. Запросы на выборку данных из одной таблицы
- •4.3.2.1.2. Запросы на выборку данных из нескольких таблиц
- •4.3.2.1.3. Вычисления и групповые операции в запросах
- •4.3.2.2. Запросы на изменение данных
- •4.3.2.3. Управляющие запросы
- •4.3.2.4. Подчиненные (сложные) запросы
- •4.3.2.5. Оптимизация запросов
- •4.3.3. Процедуры, правила (триггеры) и события в базах данных
- •4.3.4. Особенности обработки данных в субд с сетевой моделью организации данных
- •4.4. Вывод данных
- •Вопросы и упражнения
- •5. Распределенные информационные системы
- •5.1. Понятие распределенных информационных систем, принципы их создания и функционирования
- •5.2. Технологии и модели «Клиент-сервер»
- •5.2.1. Модель файлового сервера
- •5.2.2. Модель удаленного доступа к данным
- •5.2.3. Модель сервера базы данных
- •5.2.4. Модель сервера приложений
- •5.2.5. Мониторы транзакций
- •5.3. Технологии объектного связывания данных
- •5.4. Технологии реплицирования данных
- •Вопросы и упражнения
- •6. Документальные информационные системы
- •6.1. Общая характеристика и виды документальных информационных систем
- •6.2. Информационно-поисковые каталоги и тезаурусы
- •6.2.1. Классификационные системы поиска документов
- •6.2.2. Координация понятий в классификационных системах
- •6.2.3. Информационно-поисковые тезаурусы
- •6.2.4. Автоматизация индексирования документов
- •6.3. Полнотекстовые информационно-поисковые системы
- •6.3.1. Информационно-технологическая структура полнотекстовых ипс
- •6.3.2. Механизмы поиска документов в полнотекстовых ипс
- •6.3.3. Методы количественной оценки релевантности документов
- •6.4. Гипертекстовые информационно-поисковые системы
- •6.4.1. Гипертекст
- •6.4.2. Структура, принципы построения и использования гипертекстовых ипс
- •6.4.3. Модель организации данных в гипертекстовых ипс
- •6.4.4. Формирование связей документов в гипертекстовых ипс
- •Вопросы и упражнения
- •7. Администрирование информационных систем и защита данных
- •7.1. Администрирование информационных систем
- •7.2. Разграничение доступа и защита данных
- •7.2.1. Понятие и модели безопасности данных
- •7.2.2. Технологические аспекты защиты информации
- •7.2.2.1. Идентификация и аутентификация
- •7.2.2.2. Языки безопасности баз данных
- •7.2.2.3. Безопасность повторного использования объектов
- •7.2.2.4. Надежное проектирование и администрирование
- •7.2.3. Требования и классы защищенности автоматизированных (информационных) систем в «Руководящих документах...» Государственной технической комиссии при Президенте рф
- •Вопросы и упражнения
- •Литература
- •Алфавитно-предметный указатель Содержание
6.2.4. Автоматизация индексирования документов
Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механизмы индексирования документов применительно к той или иной классификационной схеме.
Развитие теории информационного поиска документов, создание первых механизированных информационно-поисковых систем поначалу не предполагали какой-либо автоматизации (механизации) индексирования документов. Индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области ИПС,которые могли осуществлять многоаспектный и глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Такой подход обусловливал высокие накладные расходы на создание и ведение документальных информационно-поисковых систем, так как требовал наличия в организационном штате высококвалифицированных специалистов-индексаторов. Кроме того, в процесс индексирования при этом вносилсячеловеческий фактор(субъективность поисковых образов одного документа, проиндексированного разными специалистами и т. п.).
Поэтому в теории информационного поиска в 50-х-60-х годах выделилось отдельное направление исследований, связанное с вопросами автоматизации индексирования документов. Идеи и начало этих исследований были инициированы появлением уже упоминавшейся системы унитермов Тауба. Индексирование документов набором однословных дескрипторов-терминов (унитермов), имеющихся в тексте документа, позволило снизить профессиональные требования к индексаторами, фигурально выражаясь,механистицировать* процесс индексирования.
* Иначе в некотором смысле приблизить к чисто механической работе по выявлению в тексте унитермов.
С применением и все более широким использованием вычислительной техники в информационно-поисковых документальных системах эти подходы трансформировались в задачи и технологии автоматического, т.е. без участия специалистов, индексирования документов.
Огромную роль в исследовании и последующем развитии теории информационного поиска документов сыграли результаты Кренфилдского(I и II)проекта,проводившегося в конце 50-х — начале 60-х годов Английской ассоциацией специальных библиотек и информационных бюро. В ходе экспериментальных исследований эффективности нескольких различных по типу информационно-поисковых систем (система на основе УДК, фасетная система, система унитермов и некоторые их разновидности), проведенных в ходе реализации Кренфилдского проекта, выявились факторы противоречивого влияния некоторых семантических показателей классификационных ИПС (глубина уровней классов при индексировании, объем словарной базы и др.) на полноту и точность информационного поиска. Выявилась общая принципиальная закономерность—при повышении полноты поиска на основе использования тех или иных семантических методов при индексировании происходит снижение точности поиска и наоборот. Еще одним «неожиданным» результатом явилось небольшое отличие в показателях эффективности поиска документов в системах с развитой семантикой индексирования и в системах на основе неконтролируемой лексики.
Последний результат активизировал в дальнейшем внимание к более простым и менее дорогим дескрипторным системам с неконтролируемой или слабоконтролируемой лексикой (унитермы, полнотекстовые системы), в которых на основе посткоординации при обработке запросов удается достичь вполне приемлемых показателей полноты и точности поиска. Этими же обстоятельствами был обусловлен импульс исследованиям технологий автоматического индексирования и уже на новом уровне возродилась идея полной механизации (точнее, уже автоматизации) индексирования документов.
Сформировалось два, хотя и близких, но различных по содержанию подхода автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов(терминов) и применяется в системах на основеинформационно-поисковых тезаурусов.Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы,собственно и реализующий поисковое пространство документов.
Применяется два типа образования индекса — прямой и инвертированный (см. рис. 6.8).
Рис. 6.8. Прямой и инвертированный типы организации индекса
Прямой тип индексастроится по схеме «Документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью NxM (N— количество документов, М —количество ключевых терминов). Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индексастроится по обратной схеме— «Термин —документы». Поисковое пространство соответственно представлено аналогичной матрицей только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.
На основе автоматического индексирования документов по ключевым терминам могут решаться также и задачи автоматической классификации документов, т. е. автоматического отнесения документов к тем или иным классификационным рубрикам. Такие задачи особенно актуализировались в связи с интенсивным развитием в 90-х годах глобальных информационных сетей, появлением «электронной» периодики, книг и огромных массивов прочей неструктурированной текстовой информации в компьютерной форме. Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить затраты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения (см. рис. 6.2). Для конкретного класса документов (рубрики) строится поисковый образ, который в системах на основе индексирования по ключевым терминам может быть представлен набором определенных терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом py6pики, и на этой основе принимается решение о внесении документов в базу, т. е. об отнесении содержания документа к предметной области ИПС.
Второй подход к автоматическому индексированию применяется в полнотекстовыхсистемах. В процессе индексирования «на учет», т. е. в индекс заносится информация обо всех словах текста документа (отсюда, как уже отмечалось, и название «полнотекстовые»). Более подробно особенности полнотекстового индексирования рассматриваются в следующем параграфе.