Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

ЯДЕРНАЯ ФИЗИКА ядерная энергия

ЯЗЫКИ

подъязыки языковые системы

ЯЗЫКИ МАНИПУЛИРОВАНИЯ ДАННЫМИ ЯМД процедурные языки манипулирования данными

ЯЗЫКИ ОПИСАНИЯ ДАННЫХ ЯОД

ЯЗЫКИ-ПОСРЕДНИКИ ЯП

ЯЗЫКИ ПРОГРАММИРОВАНИЯ машинно-зависимые языки машинно-независимые языки машинно-ориентированные языки машинные языки проблемно-ориентированные языки процедурно-ориентированные языки

Иерархическая организация терминов. В основу построения тема-

тических словников двухуровневой иерархической структуры, которые в дальнейшем могут рассматриваться как исходные для формирования проблемно-ориентированных мини-тезаурусов, положено ранжирование терминов. При использовании таких структур происходит существенное сокращение необходимого терминологического пространства без ущерба для полноты тематического охвата.

При формировании мини-тезаурусов используется лексика представительной подборки документов из рассматриваемой предметной области. Для выбора терминов первого уровня (заглавных) используются формальные оценки, позволяющие выявить так называемые «ядерные» для темы термины. Второй (и при необходимости – последующие) уровень составляют термины, присоединенные к заглавным терминам по принципу включения лексических единиц заглавного термина.

Приведем фрагмент иерархического словника для предметной области «Информационно-поисковые языки»:

АВТОМАТИЗАЦИЯ АВТОМАТИЗАЦИЯ ВЕДЕНИЯ АВТОМАТИЗАЦИЯ ПОДГОТОВКИ

АВТОМАТИЗИРОВАННОЕ ВЕДЕНИЕ АВТОМАТИЗИРОВАННЫЕ БИБЛИОТЕЧНЫЕ СИСТЕМЫ АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ АВТОМАТИЗИРОВАННЫЕ ИПС АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ

181

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ДОКУМЕНТОВ АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ АВТОМАТИЧЕСКОЕ ПОСТРОЕНИЕ ПОЛУАВТОМАТИЧЕСКОЕ ПОСТРОЕНИЕ АВТОМАТИЧЕСКОЕ СОСТАВЛЕНИЕ АКТУАЛИЗАЦИЯ АЛГОРИТМЫ АНАЛИЗ

АНАЛИЗ ДАННЫХ АНАЛИЗ ДОМЕНОВ АНАЛИЗ СОДЕРЖАНИЯ АНАЛИЗ ТЕКСТА

ДИСКРИМИНАЦИОННЫЙ АНАЛИЗ ДИСПЕРСИОННЫЙ АНАЛИЗ ИНФОРМАЦИОННЫЙ АНАЛИЗ КАТЕГОРИАЛЬНЫЙ АНАЛИЗ КЛАСТЕРНЫЙ АНАЛИЗ ОЦЕНКА И АНАЛИЗ ХАРАКТЕРИСТИК ПРОБЛЕМЫ АНАЛИЗА

СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ СЕМАНТИЧЕСКИЙ АНАЛИЗ СИНТАКСИЧЕСКИЙ АНАЛИЗАТОР СИСТЕМНЫЙ АНАЛИЗ СРАВНИТЕЛЬНЫЙ АНАЛИЗ СТАТИСТИЧЕСКИЙ АНАЛИЗ ТАКСОНОМЕТРИЧЕСКИЙ АНАЛИЗ ФАСЕТНЫЙ АНАЛИЗ ЧИСЛЕННЫЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫЙ АНАЛИЗ

5.5.3. Терминологическиеструктурыссетевойорганизацией

Основными представителями сетевых терминологических структур являются тезаурусы.

Весь окружающий нас мир можно рассматривать как множество, состоящее из двух элементов: предметов и их отношений. Этот реально существующий мир отражается в сознании человека в форме взаимосвязанных понятий, т. е. в такой форме мышления, при которой в сознании фиксируются только существенные связи и признаки предмета.

Все понятия естественного языка, служащие для описания окружающего мира, входят во всеобщий тезаурус мира, отражающий весь универсум знаний. Такой тезаурус представляет собой список понятий, выраженных на естественном языке, с обозначением отношения между ними.

182

Всеобщий тезаурус можно подразделить на частные тезаурусы путем выделения совокупности однородных понятий по их иерархическому уровню или путем выделения понятий, которыми можно описать ка- кую-либо специфическую часть мира. Таким образом, на основе всеобщего тезауруса можно составить бесконечное множество тезаурусов по различным областям знаний, по отдельным проблемам и задачам.

Термин тезаурус достаточно древнего происхождения. Впервые его применил в значении, близком сегодняшнему, еще в тринадцатом столетии Брутто Латини в заголовке своего труда – систематизированной энциклопедии «Книга о сокровище». Особенно большую известность получил тезаурус, составленный в 1852 г. англичанином Роджетом «для облегчения выражения мыслей и помощи при написании сочинений» [Браславский1997].

Тезаурус может быть представлен как семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями – иерархическими (например, род-вид, целое-часть), ассоциативными, а также отношениями эквивалентности. При этом отдельное понятие определенной области знаний в тезаурусе представлено словом или словосочетанием, соотносящимся с другими словами и словосочетаниями и образующим вместе с ними замкнутую систему [Браславский1997].

Иерархические отношения в тезаурусе представляют собой классификацию, основанную на словах естественного языка, а не на абстрактных категориях, поэтому нарушается правильная структура дерева – один и тот же термин может иметь несколько «родителей» – вышестоящих терминов на предыдущем уровне.

Например, в Тезаурусе по информатике [Информационно-

поисковый1987] словосочетание Автоматизированная обработка информации имеет два вышестоящих родителя: Автоматизированная обработка и Обработка информации, а слово Буквы – целых три родителя: алфавиты, символы, буквенно-цифровая информация.

Тезаурус, отображая возможные семантические связи терминов, представленных в БД, является идеальным лексическим инструментом информационно-поисковых систем, с помощью которого можно найти необходимую лексику для составления запросов или их модификации с целью достижения наилучших показателей эффективности поиска.

Информационно-поисковые тезаурусы. Информационно-

поисковые тезаурусы позволяют решить проблему соотнесения:

-авторской терминологии (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);

-терминологии системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);

-терминологии потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).

183

Таким образом, тезаурус выступает как средство уменьшения семантического расстояния между выражением тематики документа и поисковым запросом.

Как сказано выше, являясь лексическим инструментом информа- ционно-поисковых систем, тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь исчерпывающим образом покрывает некоторую специфическую область знаний и представляет собой перечень лексических единиц, упорядоченных по систематическому и алфавитному принципам. Кроме этого между лексическими единицами заданы смысловые отношения как иерархического (родо-видового), так и неиерархического типа (ассоциативного).

Лексическая единица (ЛЕ) информационно-поискового тезауруса

– выбранное для использования в тезаурусе слово, словосочетание или лексически значимый компонент сложного слова естественного языка.

Дескриптор – лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов.

Аскриптор (недескриптор) – лексическая единица, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

Соответственно, информационно-поисковые тезаурусы подразделяют на два типа:

1)тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

2)тезаурусы, все лексические единицы которых являются дескрипторами.

Рассмотрим основные определения и виды связей, обозначаемых в тезаурусах, на примере информационно-поискового Тезауруса по информатике [Информационно-поисковый1987].

Лексические единицы тезауруса поделены на дескрипторы (графически выделенные написанием прописными буквами) и ключевые слова - недескрипторы (написание строчными буквами). ЛЕ нормализованы следующим образом:

-имена существительные, обозначающие исчисляемые предметы, представлены в форме именительного падежа множественного числа;

-существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственного числа;

-для всех словосочетаний-дескрипторов, включая словосочетания

сименем собственным, используется естественный (прямой) порядок слов.

184

Тезаурус содержит более 3000 лексических единиц, из которых примерно половину составляют дескрипторы. Общее количество словосочетаний составляет около 70%, а количество дескрипторовсловосочетаний – 58% от общего числа дескрипторов.

Лексические единицы в тезаурусе снабжены словарными статья-

ми.

Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрипторов и ключевых слов, связанных с заглавным дескриптором по смыслу.

Общеупотребительные аббревиатуры входят в тезаурус в качестве дескрипторов. Каждая из них снабжена расшифровкой, которая приводится в косых скобках строчными буквами. Эта расшифровка служит также ключевым словом, синонимичным дескриптору-аббревиатуре.

В дескрипторной статье лексические единицы располагаются в следующем порядке:

-заглавный дескриптор;

-ключевые слова, условно синонимичные заглавному дескрипто-

ру;

-вышестоящие дескрипторы;

-нижестоящие дескрипторы;

-дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений.

Ключевые слова, входящие в класс условной эквивалентности, снабжены пометой «с» (синоним). Если дескриптор использовался в сочетании с другим дескриптором для замены ключевого слова (соответственно со ссылками «исп к» или «исп а»), то данное ключевое слово приводится после всех остальных ключевых слов со ссылкой «ср» (сравни).

Дескриптор, являющийся в иерархическом отношении вышестоящим по отношению к заглавному дескриптору, снабжается в словарной статье пометой «в» (вышестоящий). Этой ссылкой обозначается как родовой дескриптор, в объем понятия которого входит объем понятия заглавного дескриптора, так и дескриптор, обозначающий «целое» по отношению к понятию, выраженному заглавным дескриптором.

Дескрипторы, нижестоящие по отношению к заглавному дескриптору, вводятся в дескрипторную статью со ссылкой «н» (нижестоящий). Этой ссылкой обозначаются как видовые дескрипторы, так и дескрипторы, обозначающие компонент (часть) понятия, выраженного заглавным дескриптором. В словарную статью каждого дескриптора включаются вышестоящие и нижестоящие дескрипторы только одного – ближайшего к заглавному дескриптору – уровня иерархии.

Дескрипторы, связанные с заглавным дескриптором другими видами отношений, включены в дескрипторную статью со ссылкой «а» (ассоциация).

185

Приведем примеры полных словарных статей дескрипторов: ИПЯ /информационно-поисковые языки / с информационно-поисковые языки поисковые языки ср информационные языки

в ИСКУССТВЕННЫЕ ЯЗЫКИ ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ н ДЕСКРИПТОРНЫЕ ИПЯ КЛАССИФИКАЦИИ а ВХОДНЫЕ ЯЗЫКИ ВЫХОДНЫЕ ЯЗЫКИ

ЕСТЕСТВЕННЫЕ ЯЗЫКИ ИНДЕКСАЦИОННЫЕ ТЕРМИНЫ ИНДЕКСИРОВАНИЕ ИНФОРМАЦИОННО-ЛОГИЧЕСКИЕ ЯЗЫКИ ИНФОРМАЦИОННЫЙ ПОИСК ИПС ИПТ

ПАРАДИГМАТИЧЕСКИЕ ОТНОШЕНИЯ ПОСТКООРДИНАЦИЯ ПРЕДКООРДИНАЦИЯ ФОРМАЛИЗОВАННЫЕ ЯЗЫКИ

АНАЛИТИКО-СИНТЕТИЧЕСКАЯ ПЕРЕРАБОТКА ДОКУМЕНТОВ (ПРОЦЕСС)

с аналитико-синтетическая обработка информации аналитико-синтетическая переработка информации аналитическая обработка информации обработка документов синтезирование информации ср переработка информации преобразование информации в НИД н АННОТИРОВАНИЕ

ИНДЕКСИРОВАНИЕ ИНФОРМАЦИОННЫЙ АНАЛИЗ КАТАЛОГИЗАЦИЯ КЛАССИФИЦИРОВАНИЕ ОБРАБОТКА ТЕКСТА ПЕРЕВОД ПРЕДМЕТИЗАЦИЯ РЕФЕРИРОВАНИЕ РЕЦЕНЗИРОВАНИЕ РУБРИКАЦИЯ

186

а АНАЛИТИЧЕСКИЕ ОБЗОРЫ АННОТАЦИИ ДОКУМЕНТЫ ОБЗОРЫ

ОБРАБОТКА ИНФОРМАЦИИ РЕФЕРАТЫ

Для устранения неоднозначности или уточнения значения лексических единиц используются реляторы. Релятор приводится в круглых скобках прописными буквами, если он относится к дескриптору, и строчными, если относится к ключевому слову. Например, при использовании релятора с ключевым словом:

классификация (процесс)

см КЛАССИФИЦИРОВАНИЕ

Словарная статья ключевого слова состоит из собственно ключевого слова, снабженного отсылкой «см» (смотри), и дескриптора, служащего его условным смысловым эквивалентом, например:

порождающие грамматики см ГРАММАТИКА

Вслучаях замены ключевого слова сочетанием двух или более дескрипторов используется ссылка «исп к» (используй комбинацию), например:

документально-фактографические ИПС исп кДОКУМЕНТАЛЬНЫЕ ИПС; ФАКТОГРАФИЧЕСКИЕ ИПС

Вслучае неоднозначности ключевого слова и необходимости его замены одним из двух или более дескрипторов используется ссылка «исп а» (используй альтернативно):

индексация исп аИНДЕКСИРОВАНИЕ; ИНДЕКСЫ

Втабл. 5.4 приведены возможные связи между дескрипторами и ключевыми словами в Тезауруса по информатике с указаниями типа отношения.

 

 

Таблица 5.4.

 

 

 

Обозначение

Название

Тип отношения

/…/

расшифровка

эквивалентность

(…)

релятор

категория

исп к

используй комбинацию

эквивалентность

исп а

используй альтернативно

эквивалентность

С

Синоним

эквивалентность

В

вышестоящий

иерархия

Н

нижестоящий

иерархия

А

ассоциативный

ассоциация

 

187

 

Характеристика словарного состава Тезауруса. Лексика тезау-

руса может быть представлена множеством терминов

V={ M1M2M3M 4M5M6 },

которое включает следующие подмножества [Кулик1977]:

M1 - ненормализованные термины (недескрипторы), которые являются условными или истинными синонимами дескрипторов.

M 2 - дескрипторы без связей, т.е. понятия, для которых фиксация в тезаурусе родо-видовых отношений была признана нецелесообразной. К данному подмножеству относятся также категории - широкие понятия, которые не входят ни в какие более широкие понятия, и, кроме того, единичные понятия, отражающие признаки какого-либо одного предмета и не имеющие видового развития.

M3 - родоначальные дескрипторы. К родоначальным дескрипто-

рам относятся дескрипторы понятий, которые не имеют в тезаурусе родового развития, но имеют подчиненные видовые понятия. Эти дескрипторы являются корнями иерархических деревьев.

M 4 - видовые дескрипторы первого уровня.

M5 - видовые дескрипторы второго уровня.

M6 - видовые дескрипторы третьего и низшего уровней.

Приведем примеры терминов из Тезауруса по информатике: - ключевое слово:

языковые системы см ЯЗЫКИ

-дескриптор без связей:

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ аАВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ИНФОРМАЦИИ КЛАССИФИКАЦИИ КЛАССИФИЦИРОВАНИЕ

-родоначальный дескриптор:

ЯЗЫКИ

сподъязыки языковые системы

нЕСТЕСТВЕННЫЕ ЯЗЫКИ ИСКУССТВЕННЫЕ ЯЗЫКИ МЕТАЯЗЫКИ аЯЗЫКОВЫЕ СРЕДСТВА ЯЗЫКОЗНАНИЕ

- видовой дескриптор первого уровня:

ЕСТЕСТВЕННЫЕ ЯЗЫКИ

сЕЯ

вЯЗЫКИ аВХОДНЫЕ ЯЗЫКИ

188

ВЫХОДНЫЕ ЯЗЫКИ ИНОСТРАННЫЕ ЯЗЫКИ ИПЯ МОДЕЛИ ЯЗЫКА

ПИСЬМЕННОСТЬ ЯЗЫКИ ЗАПРОСОВ ЯЗЫКОВЫЕ БАРЬЕРЫ ЯЗЫКОВЫЕ СРЕДСТВА

Иерархические структуры в тезаурусе могут иметь несколько уровней, и на каждом из них возможно отражение выделенных при анализе понятий, что позволяет описывать содержание предмета по тематике тезауруса с различной степенью специфичности.. Однако для большинства родо-видовых семейств в тезаурусе характерно развитие до первого и второго видовых уровней.

На I-ом уровне специфичности находятся дескрипторы без связей и дескрипторы родоначальных понятий. Эта величина характеризует предметную широту тезауруса - представление в нем различных понятий.

II-й уровень специфичности, основу тезауруса, составляют дескрипторы без связей, дескрипторы родоначальных понятий и дескрипторы видовых понятий первого уровня.

Специфичность описания документа или запроса можно увеличить последовательным расширением используемой лексики до видовых понятий II (III уровень специфичности) и низших уровней (IV уровень специфичности). Объем словарного состава при этом увеличивается до 90% и 100% соответственно.

Способность языка индексирования отражать понятия в точном соответствии с тем объемом, с каким они выделены при анализе предметного содержания, характеризуется его специфичностью. Для тезауруса с развитой иерархией понятий специфичность может быть приближенно оценена степенью развития иерархических связей.

Полнота индексирования определяется возможностью перевода на ИПЯ всех понятий, выявленных при анализе содержания предмета в заданной тематической области, и зависит, таким образом, от наличия в языке дескрипторов, представляющих эти понятия, т. е. от предметной широты тезауруса.

Развитие иерархических связей входного словаря, а также предметная широта тезауруса характеризуют его «семантическую силу», определяемую как «способность точно и полно выражать смысл любого сообщения».

Иерархические деревья понятий в тезаурусе отличаются как по числу иерархических уровней, так и по количеству видовых понятий на различных уровнях. Степень развития иерархической структуры те-

189

зауруса можно оценить отношением числа всех дескрипторов к числу разных понятий:

I = M2 + M3 + M4 + M5 + M6

M2 + M3

Степень развития входного словаря, а следовательно, и возможности тезауруса по переводу содержания текстов по его тематике с естественного языка на ИПЯ ( индексирование ) можно оценить с помощью коэффициента синонимии :

Sn = MV1

ВТезаурусе по информатике лексические единицы распределены следующим образом: всего терминов – 3330, из них дескрипторов – 1647 (49,46%), ключевых слов – 1683 (50,54%).

Втабл. 5.5 и на рис. 5.9 представлен словарный состав Тезауруса по информатике.

 

 

 

Таблица 5.5.

 

 

 

 

Множество

Количество

% от общего

пп

 

 

количества

1

дескрипторы без связей

651

39,53

2

родоначальные дескрипторы

95

5,77

3

видовые дескрипторы I уровня

406

24,65

4

видовые дескрипторы II уровня

272

16,51

5

видовые дескрипторы низших

233

14,15

 

уровней

 

 

На I-ом уровне специфичности в Тезаурусе по информатике находится 746 дескрипторов, или 45,29% всех дескрипторов тезауруса.

На II-ом уровне специфичности – 1152 дескриптора или 69.95% от общего количества дескрипторов.

Степень развития иерархической структуры тезауруса:

I = 1647746 2,208

190