- •Информационные системы
- •ВВЕДЕНИЕ
- •1. Информация. Основные свойства и определения
- •1.1. Информация как основной предмет информатики
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.2.1. Информация
- •1.2.2. Данные
- •1.2.3. Знания
- •1.3. Свойства информации
- •1.3.1. Кумулятивность информации
- •1.3.2. Концентрация информации
- •1.3.3. Эмерджентность и неассоциативность информации
- •1.3.4. Стaрение информации
- •1.3.5. Межотраслевые свойства и рассеяние информации
- •1.4. Информационные единицы
- •Контрольные вопросы
- •2. Информационные системы и технологии обработки информации
- •2.1. Состав и структура информационной системы
- •2.1.1. Классификация информационных систем
- •2.1.2. Основные компоненты ИС
- •2.2. Информационные компоненты в системах управления
- •2.2.2. Информация в системах обработки и генерации знания
- •2.3. Информационные технологии
- •2.4. О реализации процесса поиска информации
- •Контрольные вопросы
- •3. Модели и структуры данных информационных систем
- •3.1. Семантика ИС, основанных на концепции баз данных
- •3.2. Идентификация и поиск информации
- •3.3. Представление предметной области и модели данных
- •3.4. Структура информации и структура данных
- •3.6.1. Преобразование представлений
- •Контрольные вопросы
- •4. Модели поиска и оценки эффективности
- •4.1. Оценка экономической и технической эффективности
- •4.1.1. Экономическая эффективность
- •4.1.2. Техническая эффективность
- •4.2. Математические модели оценки технической эффективности
- •4.3.2. Модель механизма поиска по совпадению терминов
- •4.3.3. Модель механизма поиска по логическому выражению
- •4.3.4.1. Модель механизма поиска документов-аналогов
- •4.3.4.2. Модель механизма эвристического поиска
- •4.5. Информационно-поисковый язык документальной ИПС
- •4.5.1. Предложение запроса
- •4.5.2. Условие поиска
- •4.5.3. Синтаксис и семантика использования дескрипторов
- •4.5.4. Использование ранее полученных результатов поиска
- •5. Лингвистическое обеспечение ИС
- •5.2. Состав и структура лингвистического обеспечения
- •Линейные
- •5.3. Классификации
- •5.3.1. Библиотечно-библиографические классификации
- •5.3.1.2. Алфавитно-предметные классификации
- •5.3.1.3. Фасетные классификации
- •5.3.2. Классификации изобретений
- •5.3.3. Отраслевые классификационные системы
- •5.4.1. Координатное индексирование
- •5.4.2. Семантическая сила дескрипторных ИПЯ
- •5.5.1. Линейные терминологические структуры
- •Рубрика
- •Слов
- •5.5.2. Иерархические терминологические структуры
- •6. Поисковые задачи и технологии информационного поиска
- •6.2. Поисковые задачи и виды информационного поиска
- •6.2.1. Типология поисковых задач
- •6.2.2. Типология информационных потребностей
- •7.3. Технология поиска и интерфейс АИПС
- •7.3.1. Творческий процесс и стереотипы мышления
- •7.3.2. Интерфейс пользователя
- •Таблица 7.1.
- •7.4.3. Типология и стереотипы поведения пользователей
- •7.5.1.1. Стратегия поиска и классификация АИПС
- •7.5.1.2. Методы поиска
- •7.5.3. Поисковые интерфейсы
- •7.5.3.1. Организация интерфейсных объектов
- •7.5.3.2. Роль системы в процессе взаимодействия
- •8. Интерфейсные средства информационного поиска
- •8.1.1. Формирование запроса «по образцу»
- •8.1.2. Конструктор запроса «по шагам»
- •8.1.3. Конструктор запроса «Логическое выражение»
- •8.1.4. Использование формулировок ранее сохраненных запросов
- •8.2.1. Поиск аналогов
- •8.2.2. Эвристический поиск
- •8.2.3. Поиск по обратной связи
- •8.3. Технологические объекты построения предложения запроса
- •8.3.1. Частотный словарь
- •8.3.2. Тематический рубрикатор
- •8.3.3. Тезаурус
- •8.3.4. Иерархический словник
- •Список сокращений
- •ЕЯ – естественный язык.
- •ИС – информационная система.
- •ТСС – тематико-статистический спектр множества документов.
- •Литература
- •Глоссарий
- •Приложения
отсекается из всех слов естественно-языкового употребления в базе данных, независимо от того, является ли для конкретно рассматриваемого слова морфемой или частью корня.
Словарь словосочетаний. Такой словарь используется для определения наиболее часто встречающихся устойчивых комбинаций слов. Словарь словосочетаний повышает эффективность анализа содержания, выделяя для идентификации содержания однозначные словосочетания вместо множества в общем случае неоднозначных слов (например, пара отдельных терминов «программа» и «язык» является менее определенной, чем словосочетание «язык программирования»).
Лингвистической особенностью словаря является то, что термины – одиночные слова зачастую не выражают никакого смысла, являясь только составной частью словосочетания.
Основываясь на том, что наиболее информативными терминами являются термины-словосочетания, наиболее правомерно использовать именно их для составления поискового запроса.
Например, количественный анализ ключевых слов, которые были использованы при индексировании документов БД ВИНИТИ РАН «Информатика» за период с 1986-2000 гг., по следующим рубрикам Рубрикатора ВИНИТИ РАН: 201.23.15 «Информационно-поисковые языки», 201.23.01 «Информационный поиск, общие вопросы», 201.01.04 «Информатизация общества, информационная политика», показал лидирующую роль словосочетаний при индексировании (см. табл. 5.3).
|
|
|
|
|
Таблица 5.3. |
|
|
|
|
|
|
|
|
|
Кол-во док- |
Общее |
Слов |
Словосочет |
|
% |
Рубрика |
количество |
|
аний |
|
словосочет |
|
|
тов |
терминов |
|
|
|
аний |
|
|
|
|
|
||
201.23.15 |
868 |
1645 |
455 |
1190 |
|
72,34 |
201.23.01 |
1040 |
1867 |
445 |
1422 |
|
76,16 |
201.01.04 |
1475 |
2016 |
453 |
1563 |
|
77,52 |
Частотный словарь. Частотный словарь – перечень дескрипторов и ключевых слов. Термины располагаются в алфавитном порядке, либо в порядке убывания (возрастания) частоты использования их в информационном массиве.
Частотная характеристика термина показывает количество документов информационного массива, в которых термин встретился хотя бы один раз. Частота встречаемости ориентирует пользователя в лексике информационного массива с точки зрения включения какоголибо термина в поисковый запрос.
Рассмотрим, например, фрагмент частотного словаря ретроспективной реферативной БД «Информатика» (1986-2002 гг):
188
51 ИНФОРМАЦИОННАЯ ГРАМОТНОСТЬ
1 ИНФОРМАЦИОННАЯ ГРАНИЦА ВСЕЛЕННОЙ
1 ИНФОРМАЦИОННАЯ ДЕМОКРАТИЯ
189