- •Предисловие
- •1. Основы информационного обеспечения процессов и систем
- •1.1. Понятие и содержание информационного обеспечения
- •1.2. Структура и классификация информационных систем
- •1.3. Система представления и обработки данных фактографических аис
- •Вопросы и упражнения
- •2. Системы управления базами данных фактографических информационных систем
- •2.1. Функции, классификация и структура субд
- •2.2. Модели организации данных
- •2.2.1. Иерархическая и сетевая модели организации данных
- •2.2.2. Реляционная модель организации данных
- •2.3. Внутренняя схема баз данных фактографических аис
- •2.3.1. Физические структуры данных
- •2.3.2. Индексирование данных
- •2.3.3. Расстановка (хеширование) записей
- •Вопросы и упражнения
- •3. Основы создания автоматизированных информационных систем
- •3.1. Общие положения по созданию автоматизированных систем
- •3.2. Проектирование банков данных фактографических аис
- •3.2.1. Концептуальное проектирование
- •3.2.2. Проектирование схем реляционных баз данных
- •3.2.2.1. Проектирование и создание таблиц
- •3.2.2.2. Нормализация таблиц
- •Вопросы и упражнения
- •4. Ввод, обработка и вывод данных в фактографических аис
- •4.1. Языки баз данных
- •4.2. Ввод, загрузка и редактирование данных
- •4.2.1. Ввод и редактирование данных в реляционных субд
- •4.2.2. Особенности ввода и загрузки данных в субд с сетевой моделью организации данных
- •4.3. Обработка данных
- •4.3.1. Поиск, фильтрация и сортировка данных
- •4.3.2. Запросы в реляционных субд
- •4.3.2.1. Запросы на выборку данных
- •4.3.2.1.1. Запросы на выборку данных из одной таблицы
- •4.3.2.1.2. Запросы на выборку данных из нескольких таблиц
- •4.3.2.1.3. Вычисления и групповые операции в запросах
- •4.3.2.2. Запросы на изменение данных
- •4.3.2.3. Управляющие запросы
- •4.3.2.4. Подчиненные (сложные) запросы
- •4.3.2.5. Оптимизация запросов
- •4.3.3. Процедуры, правила (триггеры) и события в базах данных
- •4.3.4. Особенности обработки данных в субд с сетевой моделью организации данных
- •4.4. Вывод данных
- •Вопросы и упражнения
- •5. Распределенные информационные системы
- •5.1. Понятие распределенных информационных систем, принципы их создания и функционирования
- •5.2. Технологии и модели «Клиент-сервер»
- •5.2.1. Модель файлового сервера
- •5.2.2. Модель удаленного доступа к данным
- •5.2.3. Модель сервера базы данных
- •5.2.4. Модель сервера приложений
- •5.2.5. Мониторы транзакций
- •5.3. Технологии объектного связывания данных
- •5.4. Технологии реплицирования данных
- •Вопросы и упражнения
- •6. Документальные информационные системы
- •6.1. Общая характеристика и виды документальных информационных систем
- •6.2. Информационно-поисковые каталоги и тезаурусы
- •6.2.1. Классификационные системы поиска документов
- •6.2.2. Координация понятий в классификационных системах
- •6.2.3. Информационно-поисковые тезаурусы
- •6.2.4. Автоматизация индексирования документов
- •6.3. Полнотекстовые информационно-поисковые системы
- •6.3.1. Информационно-технологическая структура полнотекстовых ипс
- •6.3.2. Механизмы поиска документов в полнотекстовых ипс
- •6.3.3. Методы количественной оценки релевантности документов
- •6.4. Гипертекстовые информационно-поисковые системы
- •6.4.1. Гипертекст
- •6.4.2. Структура, принципы построения и использования гипертекстовых ипс
- •6.4.3. Модель организации данных в гипертекстовых ипс
- •6.4.4. Формирование связей документов в гипертекстовых ипс
- •Вопросы и упражнения
- •7. Администрирование информационных систем и защита данных
- •7.1. Администрирование информационных систем
- •7.2. Разграничение доступа и защита данных
- •7.2.1. Понятие и модели безопасности данных
- •7.2.2. Технологические аспекты защиты информации
- •7.2.2.1. Идентификация и аутентификация
- •7.2.2.2. Языки безопасности баз данных
- •7.2.2.3. Безопасность повторного использования объектов
- •7.2.2.4. Надежное проектирование и администрирование
- •7.2.3. Требования и классы защищенности автоматизированных (информационных) систем в «Руководящих документах...» Государственной технической комиссии при Президенте рф
- •Вопросы и упражнения
- •Литература
- •Алфавитно-предметный указатель Содержание
6.3. Полнотекстовые информационно-поисковые системы
Процессы массовой компьютеризации и информатизации деятельности предприятий, организаций в конце 80-х и в 90-х годах привели к накоплению огромных массивов неструктурированной текстовой компьютерной информации, с одной стороны, и доступности (всеобщей распространенности и персо-нальности) вычислительной техники, с другой стороны. Возникла потребность в программном инструментарии, который бы обеспечивал эффективный поиск нужных текстовых данных.
Семантические подходы к автоматизации такого рода задач (информационно-поисковые каталоги, фасетные и тезаурусные системы) не могли быть в полной мере использованы в массовой персональной автоматизации, т. е. на рабочем месте отдельного пользователя или для небольшой рабочей группы, так как требовали серьезной предварительной проработки соответствующей предметной области.* Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении, получении и агрегировании текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий необходимых документов.
* В этом отношении примечательным является следующее замечание — файловые системы ОС ПК предусматривают создание произвольной схемы логических дисков, каталогов, подкаталогов и т.п., которые по логике должны отображать структуру предметной области сведений пользователя ПК и, тем самым, в упрощенном утрированном виде решать задачи систематизации размещения документов-файлов для быстрого и эффективного их нахождения. Однако в большинстве случаев пользователями такая адекватная их потребностям система каталогов не создается из-за недостаточной их квалификации или нетривиальности самой структуры предметной области и данные зачастую размещаются довольно хаотично.
В результате на рынке программных продуктов в конце 80-х годов появились полнотекстовые ИПС и программные средства их создания, называемые иногда полнотекстовыми СУБД.
6.3.1. Информационно-технологическая структура полнотекстовых ипс
Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа.Их информационно-технологическая структура представлена на рис. 6.9 и включает следующие элементы:
• хранилище (базу) документов;
• глобальный словарь системы;
• индекс документов инвертированного типа;
• интерфейс ввода (постановки на учет) документов в систему;
• механизм (машину) индексирования;
• интерфейс запросов пользователя;
• механизм поиска документов (поисковую машину);
• механизм извлечения (доставки) найденных документов.
Хранилище документовможет быть организовано как единаялокально сосредоточенная информационная структурав виде специального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов. Для компактного хранения документов они могут быть сжаты архиваторами.
Другой вариант не предусматривает создания локально сосредоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (структура дисков и каталогов отдельного компьютера или локальной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы текстовых документов распределеныи размещаются в тех узлах и элементах информационной инфраструктуры, которые соответствуют технологии создания и обработки документов (документообороту). Вместе с тем все они учтеныв полнотекстовой ИПС (т.е. проиндексированы по содержанию и зафиксированы по месторасположению) для эффективного поиска и доступа к ним. Такой подход более логичен с точки зрения технологий документооборота или распределенного характера систем (например, система WWWсети Интернет), но недостатком имеет необходимость постоянного отслеживания и учета возможных перемещений документов.
Рис. 6.9. Информационно-технологическая структура полнотекстовых ИПС
Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы.Глобальные словари могут быть статическими и динамическими.
Статические словарине зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого и т. д.).
Динамические словариопределяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономичен и обеспечивает некоторую настройку словарной базы на предметную область документов.
Элементы глобального словаря выступают в качестве дескрипторовИПЯ системы. Поступающие черезинтерфейс ввода/выводадокументы подвергаются операциииндексирования по глобальному словарю.Механизм индексированияв полнотекстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа, откуда, повторимся, происходит и название — «полнотекстовые ИПС».
Важной особенностью, оказывающей существенное влияние на эффективность полнотекстовых ИПС,является наличие либо отсутствие морфологического разбора при индексировании документов и запросов.Морфологический разборпозволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т. е. одни и те же слова, отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т. п.). Такой процесс основывается нанормализацииглобального словаря системы, объединяющей в одну словоформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова(стоп-слова) —предлоги, союзы, восклицания, междометия и некоторые другие грамматические категории. В большинстве случаев морфологический разбор осуществляется в системах со статическим глобальным словарем. Для русского языка в качестве такого нормализованного глобального словаря используется составленный в 1968 году академиком И. К. Зализняком морфологический словарь русского языка. Он позволяет распознать и соответственно нормализовать более 3 млн. словоформ.
В результате индексирования ПОД каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы.Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.
При удалении документа из системы соответственно удаляется и поисковый образ документа, т. е. соответствующий столбец индекса.
Пользователь языком запросов ИПЯполнотекстовой ИПС через соответствующий интерфейс запросоввыражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступают на поисковую машину. Механизм поискаосновывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют или близки поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище документов указательных конструкций извлекает и доставляетсоответствующие документы пользователю.
Таким образом, программное обеспечение полнотекстовых ИПС обеспечивает полный технологический цикл ввода, обработки, поиска и получения документов. В практическом плане ИПС могут поставляться как готовый информационный продукт, т. е. с уже сформированной базой документов и интерфейсом поиска и доступа к ним.* В других случаях поставляется программная среда, позволяющая такую базу создать и сформировать тем самым документальную информационно-поисковую систему. Такие программные средства иногда называют полнотекстовыми СУБД.
* Такими информационными продуктами, основанными в том числе и на полнотекстовых технологиях, являются многочисленные юридические информационно-справочные системы — «Кодекс», «Гарант», «Консультант плюс» и др.