Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

отсекается из всех слов естественно-языкового употребления в базе данных, независимо от того, является ли для конкретно рассматриваемого слова морфемой или частью корня.

Словарь словосочетаний. Такой словарь используется для определения наиболее часто встречающихся устойчивых комбинаций слов. Словарь словосочетаний повышает эффективность анализа содержания, выделяя для идентификации содержания однозначные словосочетания вместо множества в общем случае неоднозначных слов (например, пара отдельных терминов «программа» и «язык» является менее определенной, чем словосочетание «язык программирования»).

Лингвистической особенностью словаря является то, что термины – одиночные слова зачастую не выражают никакого смысла, являясь только составной частью словосочетания.

Основываясь на том, что наиболее информативными терминами являются термины-словосочетания, наиболее правомерно использовать именно их для составления поискового запроса.

Например, количественный анализ ключевых слов, которые были использованы при индексировании документов БД ВИНИТИ РАН «Информатика» за период с 1986-2000 гг., по следующим рубрикам Рубрикатора ВИНИТИ РАН: 201.23.15 «Информационно-поисковые языки», 201.23.01 «Информационный поиск, общие вопросы», 201.01.04 «Информатизация общества, информационная политика», показал лидирующую роль словосочетаний при индексировании (см. табл. 5.3).

 

 

 

 

 

Таблица 5.3.

 

 

 

 

 

 

 

 

Кол-во док-

Общее

Слов

Словосочет

 

%

Рубрика

количество

 

аний

 

словосочет

 

тов

терминов

 

 

 

аний

 

 

 

 

 

201.23.15

868

1645

455

1190

 

72,34

201.23.01

1040

1867

445

1422

 

76,16

201.01.04

1475

2016

453

1563

 

77,52

Частотный словарь. Частотный словарь – перечень дескрипторов и ключевых слов. Термины располагаются в алфавитном порядке, либо в порядке убывания (возрастания) частоты использования их в информационном массиве.

Частотная характеристика термина показывает количество документов информационного массива, в которых термин встретился хотя бы один раз. Частота встречаемости ориентирует пользователя в лексике информационного массива с точки зрения включения какоголибо термина в поисковый запрос.

Рассмотрим, например, фрагмент частотного словаря ретроспективной реферативной БД «Информатика» (1986-2002 гг):

188

51 ИНФОРМАЦИОННАЯ ГРАМОТНОСТЬ

1 ИНФОРМАЦИОННАЯ ГРАНИЦА ВСЕЛЕННОЙ

1 ИНФОРМАЦИОННАЯ ДЕМОКРАТИЯ

189