- •Предисловие
- •1. Основы информационного обеспечения процессов и систем
- •1.1. Понятие и содержание информационного обеспечения
- •1.2. Структура и классификация информационных систем
- •1.3. Система представления и обработки данных фактографических аис
- •Вопросы и упражнения
- •2. Системы управления базами данных фактографических информационных систем
- •2.1. Функции, классификация и структура субд
- •2.2. Модели организации данных
- •2.2.1. Иерархическая и сетевая модели организации данных
- •2.2.2. Реляционная модель организации данных
- •2.3. Внутренняя схема баз данных фактографических аис
- •2.3.1. Физические структуры данных
- •2.3.2. Индексирование данных
- •2.3.3. Расстановка (хеширование) записей
- •Вопросы и упражнения
- •3. Основы создания автоматизированных информационных систем
- •3.1. Общие положения по созданию автоматизированных систем
- •3.2. Проектирование банков данных фактографических аис
- •3.2.1. Концептуальное проектирование
- •3.2.2. Проектирование схем реляционных баз данных
- •3.2.2.1. Проектирование и создание таблиц
- •3.2.2.2. Нормализация таблиц
- •Вопросы и упражнения
- •4. Ввод, обработка и вывод данных в фактографических аис
- •4.1. Языки баз данных
- •4.2. Ввод, загрузка и редактирование данных
- •4.2.1. Ввод и редактирование данных в реляционных субд
- •4.2.2. Особенности ввода и загрузки данных в субд с сетевой моделью организации данных
- •4.3. Обработка данных
- •4.3.1. Поиск, фильтрация и сортировка данных
- •4.3.2. Запросы в реляционных субд
- •4.3.2.1. Запросы на выборку данных
- •4.3.2.1.1. Запросы на выборку данных из одной таблицы
- •4.3.2.1.2. Запросы на выборку данных из нескольких таблиц
- •4.3.2.1.3. Вычисления и групповые операции в запросах
- •4.3.2.2. Запросы на изменение данных
- •4.3.2.3. Управляющие запросы
- •4.3.2.4. Подчиненные (сложные) запросы
- •4.3.2.5. Оптимизация запросов
- •4.3.3. Процедуры, правила (триггеры) и события в базах данных
- •4.3.4. Особенности обработки данных в субд с сетевой моделью организации данных
- •4.4. Вывод данных
- •Вопросы и упражнения
- •5. Распределенные информационные системы
- •5.1. Понятие распределенных информационных систем, принципы их создания и функционирования
- •5.2. Технологии и модели «Клиент-сервер»
- •5.2.1. Модель файлового сервера
- •5.2.2. Модель удаленного доступа к данным
- •5.2.3. Модель сервера базы данных
- •5.2.4. Модель сервера приложений
- •5.2.5. Мониторы транзакций
- •5.3. Технологии объектного связывания данных
- •5.4. Технологии реплицирования данных
- •Вопросы и упражнения
- •6. Документальные информационные системы
- •6.1. Общая характеристика и виды документальных информационных систем
- •6.2. Информационно-поисковые каталоги и тезаурусы
- •6.2.1. Классификационные системы поиска документов
- •6.2.2. Координация понятий в классификационных системах
- •6.2.3. Информационно-поисковые тезаурусы
- •6.2.4. Автоматизация индексирования документов
- •6.3. Полнотекстовые информационно-поисковые системы
- •6.3.1. Информационно-технологическая структура полнотекстовых ипс
- •6.3.2. Механизмы поиска документов в полнотекстовых ипс
- •6.3.3. Методы количественной оценки релевантности документов
- •6.4. Гипертекстовые информационно-поисковые системы
- •6.4.1. Гипертекст
- •6.4.2. Структура, принципы построения и использования гипертекстовых ипс
- •6.4.3. Модель организации данных в гипертекстовых ипс
- •6.4.4. Формирование связей документов в гипертекстовых ипс
- •Вопросы и упражнения
- •7. Администрирование информационных систем и защита данных
- •7.1. Администрирование информационных систем
- •7.2. Разграничение доступа и защита данных
- •7.2.1. Понятие и модели безопасности данных
- •7.2.2. Технологические аспекты защиты информации
- •7.2.2.1. Идентификация и аутентификация
- •7.2.2.2. Языки безопасности баз данных
- •7.2.2.3. Безопасность повторного использования объектов
- •7.2.2.4. Надежное проектирование и администрирование
- •7.2.3. Требования и классы защищенности автоматизированных (информационных) систем в «Руководящих документах...» Государственной технической комиссии при Президенте рф
- •Вопросы и упражнения
- •Литература
- •Алфавитно-предметный указатель Содержание
6.2.3. Информационно-поисковые тезаурусы
Особую роль в развитии информационно-поисковых систем сыграли работы Мортимера Тауба, разработавшего в 1951 году систему унитермов.В системе Тауба содержание документа индексируется совокупностьютерминовв видеоднословных обозначений — унитермов.Например, документ по теории информационного поиска может быть проиндексирован двумя унитермами — «Информационный», «Поиск». В качестве унитермов чаще всего выступают элементысловаря ключевых терминовпо определенной предметной области.
В системе Тауба первоначально не предполагалось какой-либо связи или отношений между унитермами и, следовательно, ее можно отнести к чисто дескрипторным системам. Вместе с тем сразу же проявились и такие специфические проблемы дескрипторных систем, как ложная координация понятий.Явление ложной координации заключается в такой координации понятий (классов, терминов), которые хотя по отдельности и присутствуют в содержании документа, но комбинируются по смыслу с другими понятиями (терминами, классами). Так, например, в содержании документа, в котором речь идет об информационном обеспечении поисковых бригад при ликвидации чрезвычайных происшествий и последствий стихийных бедствий, также присутствуют в числе прочих унитермы — «Информационный» и «Поиск», и, следовательно, он совершенно неправильно может быть выдан на запрос по теории информационного поиска.
Другой проблемойв системах на основе унитермов являютсясинонимичность и омонимичность* некоторыхтерминов,что приводит к неоднозначности индексирования документов. Для преодоления ложной координации и других проблем стали вводитьсоставные термины, указатели связииролей терминов(«род— вид», «средство действия» и т. п.), заново открывая в некотором смысле предметную иерархическую рубрикацию со связями, и внося тем самым в чисто дескрипторную систему элементы семантики. Так появилось отдельное направление информационно-поисковых систем, получившее название тезаурусов.
* Синонимы — одинаковые или близкие по смыслу слова, омонимы — слова, одинаковые в написании и звучании, но имеющие разный смысл — ключ (в замке), ключ (источник воды).
Тезаурус (с греч.«хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения cинонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.*
* Строгое определение информационно-поискового тезауруса (нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями лексических единиц)приведено в ГОСТ 7.74-96 СИБИД. Информационно-поисковые языки.—М.: Изд-во стандартов, 1997.
В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов-ключевых слов.Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из «родо-видовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.
Внешним отличиеминформационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терминов, им соответствующих.
Главная идеяинформационно-поисковых тезаурусов заключается вповышении эффективности и автоматизации индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поисковых тезаурусов ПОД представлен набором дескрипторов (ключевых терминов). Однако в процессе индексирования документов учитываются семантические (родо-видовые, ролевые, синонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эффективность поиска документов (по точности, полноте и шуму).
Разработка тезаурусов и их внедрение в информационно-поисковые системы интенсивно осуществлялись в 60-е и 70-е годы. При этом в соответствии с тематическим профилем выделились многоотраслевые, отраслевыеиузкотематические тезаурусы.Первым многоотраслевым тезаурусом за рубежом явился «Тезаурус технических и научных терминов», вышедший в декабре 1967 г. в США. В 1972 г. под редакцией Ю. И. Шемакина был разработан первый отечественный многоотраслевой «Тезаурус научно-технических терминов». В семидесятые годы тезаурусы были разработаны практически для всех отраслей деятельности, а также создано большое количество узкотематических специализированных тезаурусов.
На основе практики разработки и использования информационно-поисковых тезаурусов были также разработаны специальные представления тезаурусов, закрепленные в нашей стране в соответствующих ГОСТах.* Согласно ГОСТ 18383-73 форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору(термину) в следующем виде:**
...
РЕФЕРАТ
с резюме
в СВЕРТЫВАНИЕИНФОРМАЦИИ
н РЕФЕРАТАВТОРСКИЙ
РЕФЕРАТГРАФИЧЕСКИЙ
РЕФЕРАТИНФОРМАТИВНЬШ
РЕФЕРАТ«ТЕЛЕГРАФНОГОСТИЛЯ»
РЕФЕРАТУКАЗАТЕЛЬНЫЙ
РЕФЕРИРОВАНИЕ
а АННОТАЦИЯ
...
где в качестве буквенных обозначений выступают следующие:
с — термины-синонимы;
в — термины, подчиняющие заглавный термин, т.е. выше по иерархии;
н — термины, подчиненные заглавному, т. е. ниже по иерархии;
а — термины, ассоциированные с заглавным термином.
* ГОСТ 18383-73. Тезаурус информационно-поисковый. Общие положения. Форма представления.
** Пример позаимствован из работы: Соколов А.В.Информационно-поисковые системы: Учеб. пособие для вузов/Под ред. А. Б. Рябова.—М.: Радио и связь, 1981.
Еще одной особенностью тезаурусовявляется применяемая на практикевозможность расширения словарной базы новыми ключевыми терминами,появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане различаютбазовые и рабочие тезаурусы.Базовые тезаурусы выступают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезаурусы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появления в документах новых или специфичных терминов (так называемые профессионализмы, иногда жаргонные термины и т. д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемыйведением тезауруса.