Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1187
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

9.3.2. Дескрипторизация ключевых слов

Дескрипторизация словаря заключается в переводе поисковых образов текстов документов с языка ключевых слов на дескрипторный язык. Процесс дескрипторизации включает:

— нормализацию ключевых слов;

— установление классов условной эквивалентности.

Нормализация терминов индексирования заключается в приведении их к стандартной для информационно-поисковых тезаурусов форме записи.

Ключевые слова должны быть представлены в тезаурусе в унифицированной грамматической форме:

— различные формы глагола должны заменяться существительными;

— различные формы прилагательного, используемого в роли отдельного КС, заменяются формой именительного падежа единственного числа мужского рода;

— различные формы существительного заменяются формой именительного падежа. Если существительное имеет две формы числа (единственное и множественное), то оно приводится к типовым формам согласно ГОСТ 18383–73.

При нормализации ключевых слов важно иметь в виду порядок слов.

Например, к словосочетанию, состоящему из прилагательного (или нескольких) и существительного, возникает вопрос, какой порядок записи использовать: прямой или инвертированый. Чтобы обеспечить экономичность и единообразие формулировок ключевых выражений и дескрипторов, используют инвертированную форму записи – существительное, затем прилагательное. Например: «каталог библиотечный». В этом случае дается отсылка от отвергнутой к принятой форме, что приводит к росту объема справочного аппарата. Используют и другой вариант: словосочетания приводят в прямой форме (не инвертируют). Например: «библиотечный каталог».

Важную роль в теории и практике дескрипторных ИПС выполняет понятие «условная эквивалентность ключевых слов».

Условная эквивалентность ключевых слов выражается в следующем: если ключевое слово в любом тексте документального массива, введенного в ИПС, может быть заменено другим ключевым словом так, что на запрос решение о выдаче остается таким же, как и до замены, то такие ключевые слова являются эквивалентными в сфере действия данной ИПС.

Существует два вида эквивалентности ключевых слов:

Имманентная (безусловная) и факультативная (условная), существующая только в рамках конкретной узкотематической ИПС.

Имманентная эквивалентность может быть представлена:

  • лексическими синонимами (существительными и прилагательными). Например: «габарит – размер». В качестве лексических синонимов выступает русский термин и соответствующий ему из иностранного языка;

  • полным наименованием и общепринятым сокращением. Например: «НТИ = научно-техническая информация».

Причиной факультативной эквивалентности является условный характер дескрипторного языка. Факультативная эквивалентность может быть представлена:

  • семантически родственными словами, смысловым различием которых можно пренебречь в рамках конкретной ИПС (квазисинонимы). Например: «воздух = атмосфера»;

  • терминами, выражающими понятия и представления, связанные логическими отношениями и психологическими ассоциациями. Как правило, такие связи представляются в виде парадигматических отношений, но иногда они подменяются отношением эквивалентности. Например: «авиация = самолет»; «алфавит = буква» (родовидовые отношения и отношения целое – часть); «громкоговоритель = радиовещание» (предмет – функция); «алюминий = дюраль» (сходство); «страна зарубежная = иностранный» (предмет – признак);

  • эллипсами (пропусками слов в речи), имеющими хождение в определенной отрасли знания. Например: «машина = электронная вычислительная машина».

Факультативная эквивалентность ключевых слов является регулярным средством формирования классов условной эквивалентности. Имманентная эквивалентность ключевых слов менее распространена.

Естественный язык обладает рядом свойств, осложняющих его использование для записи и поиска информации. Часто точное значение слов можно определить только из контекста, в котором они употреблены. Сложности для автоматизированной обработки слов и словосочетаний создают явления омонимии и полисемии. Неоднозначность и многозначность слов естественного языка препятствуют достижению соответствия между содержанием документа и средствами выражения этого содержания.

Омонимия и полисемия ключевых слов устраняется при помощи специальных помет (лексикографически). Например: «библиография» (наука) – «библиография» (деятельность). Таким образом, уточняют значение ключевого слова. Многозначность единичных ключевых слов можно снять путем перевода их в словосочетания. Единичные ключевые слова со значением омонима подвергаются дескрипторизации наряду с другими ключевыми словами, в результате чего происходит расчленение множества ключевых слов на классы условной эквивалентности. В качестве представителя данного класса (доминанты) в дескрипторном ИПЯ выбирается одно из ключевых слов этого класса. Это слово можно назвать «де­скриптором», и оно имеет два значения: 1) класс условно эквивалентных (взаимозаменяемых) ключевых слов и 2) ключевое слово, являющееся представителем данного класса эквивалентности. В дескрипторном словаре, представляющем собой алфавитный перечень ключевых слов и дескрипторов, от ключевых слов даются отсылки к соответствующим дескрипторам. Около слов, обозначающих дескрипторы, перечисляются условно эквивалентные ключевые слова. Благодаря этому уточняется значение дескриптора.

9.3.3. Установление парадигматических отношений

Парадигматические (базисные, аналитические) отношения выражают постоянные семантические (смысловые) связи между лексическими единицами ИПЯ, не зависящие от текста. К ним относят: «род – вид», «целое – часть» и т. п. Эти отношения стабильны для каждой предметной области и фиксируются в словаре. В ИПТ фиксируются следующие парадигматические отношения (связи):

  1. Род – вид (родовидовые, выше – ниже, шире – уже).

  2. Отношение синонимии (условной эквивалентности).

  3. Ассоциативные отношения различного вида.

Используя логический анализ для сопоставления объемов понятий (дескрипторов), между ними выявляются отношения подчинения (объем одного понятия целиком включается в объем другого понятия) и пересечения (объемы понятий пересекаются). Логическое отношение подчинения связывает родовое понятие (понятие большого объема) и видовое понятие (понятие меньшего объема).

Родовидовые отношения между несколькими дескрипторами можно выстроить в виде иерархического дерева. Процесс построения иерархических деревьев включает распределение дескрипторов по все более узким семантическим категориям. В качестве главных семантических категорий выступают, например: «технологические процессы», «естественные явления», «материальные предметы», «свойства», «время» и др. Эти категории представляют собой общие понятия соответствующей области знания и включаются в тезаурус в качестве родовых для определенной группы дескрипторов.

Деление на категории позволяет собрать вместе дескрипторы, обозначающие родственные понятия.

Отношение пересечения понятий выражаются через ссылки «см. также». Например:

а) Родовидовые отношения

Преобразование информации

См. также Декодирование

Кодирование

б) Отношение функция (назначение) – предмет (процесс)

Надежность

См. также Защита

в) Отношение признак (свойство) – предмет (процесс)

Движение

См. также Динамика и т. д.

Родовидовые отношения выражают сильные парадигматические отношения. Отношения пересечения между дескрипторами представлены слабыми парадигматическими отношениями.

Кроме родовидовых отношений, между дескрипторами существуют ассоциативные отношения. Ассоциативные отношения можно установить с помощью сопоставления признаков, входящих в определения данных понятий и анализа содержания данной тематической области. Анализ текстов документов по конкретной тематике поможет выявить основную систему ассоциаций. Развивать систему ассоциаций могут помочь рекомендации заинтересованных пользователей АИС.

Использование тех или иных ассоциативных отношений зависит от специфики соответствующего лексического материала и ориентации на задачи поиска информации.

Примерами ассоциативных отношений могут служить отношения «часть – целое», «функциональное сходство», «следствие – причина» и др.

Отношение «целое – часть» («часть – целое») отражает факт вхождения одного объекта (предмета) или процесса в состав другого. Например:

БРОНХИ

ДЫХАТЕЛЬНАЯ ГЛОТКА

СИСТЕМА ГОРТАНЬ

ЛЕГКИЕ

НОС

ОКОЛОНОСОВЫЕ ПАЗУХИ

В процессе выявления таких отношений необходимо ответить на ряд вопросов: какие составные части имеет объект, обозначаемый дескриптором, в состав каких других объектов может входить объект, обозначенный дескриптором, и другие подобные вопросы. При этом рекомендуется пользоваться энциклопедическими и толковыми словарями, так как ответы на эти вопросы относятся к числу энциклопедических сведений. Разновидностью такого от­ношения можно назвать отношение «система – элемент». В информационной деятельности таким примером может служить отношение: «информационно-поисковая система – информационно-поисковый язык».

Отношение «причина – следствие» – это такое отношение между парой дескрипторов, когда наличие предмета (процесса, свойства), обозначенного одним дескриптором означает наличие предмета (процесса, свойства), обозначенного другим дескриптором.

Такое понимание ассоциации не предполагает разграничения между причиной и следствием и не требует наличия подлинной причинно-следственной связи. К причинно-следственным отношениям можно отнести отношение «функция (назначение) – предмет (процесс)» или «предмет (процесс) – признак (свойство)». Например: «арктика – холод».

Между предметами (процессами, свойствами), обладающими общими признаками (общность назначения, формы, функции и т. д.) существует отношение сходства. Например: «картотека – каталог».

В том случае, когда происходит противопоставление предметов, процессов, свойств по критерию отличия, между ними устанавливается отношение контраста. Например: «хороший – плохой». Ассоциации по контрасту возникают вследствие наличия в языке антонимов (противоположных по значению слов).

Ассоциативная связь между предметами или явлениями, воспринимающимися в непосредственной близости друг к другу в пространстве и во времени, называется отношением смежности. Например: «стол – стул».

Морфологическая характеристика термина «индексирование» заключается в отнесении его к лексикографическим категориям. В словник ИПТ включаются, как правило, следующие типы ЛЕ:

  • существительные, прилагательные, числительные, наречия, некоторые причастия и их сочетания, очень редко глаголы;

  • именные словосочетания;

  • лексически значимые компоненты сложных слов;

  • сокращение слов и словосочетаний.

Отобранные из текстов ключевые слова подвергаются лексикографической обработке, которая заключается в выполнении следующих операций:

  • решение вопроса о разделении выделенного словосочетания из двух или более слов или сохранение его в качестве целостного КС;

  • решение вопроса об использовании сложного слова в качестве КС или членении его на два или более ключевых слова;

  • устранение омонимии и полисемии лексических единиц естественного языка.

Морфологический анализ, заключающийся в разделении слов естественного языка на основы, аффиксы (префиксы и суффиксы) и окончания, позволяет преобразовать сложные слова в словосочетания или сократить. Морфологический анализ выполняется по следующей схеме:

  • определяется грамматический класс слова по его буквенному составу;

  • существительные подвергаются анализу на определение отглагольных существительных;

  • сложные слова разделяются на самостоятельные единицы: префиксоид и основу. Например: сложное слово «самолетостроение» разбивается на префиксоид («самолето») и основу («строение»).

Различные словоформы одного слова приводятся к одной основе (путем опознавания и отсечения окончаний и суффиксов). Например: слова «библиотечный», «библиотека» в результате морфологического анализа будут приведены к одной форме «библиот». Слова, обозначающие предметы и пишущиеся через дефис, включаются в ИПТ в их натуральном виде. Например: «фотограф-любитель».

Омонимия и полисемия (многозначность) ключевых слов устраняются с помощью специальных помет (пояснений), являющихся частями лексических единиц. Специальные пометы помещаются в круглых скобках непосредственно после КС через пробел. Они указывают на соответствующую область знания, отнесение к более крупной категории, приведение синонима и т. д. Часто эти пометы называют реляторами. Например: «библиография (наука) – библиография (деятельность) – библиография (указатель литературы)». Иногда применяются лексические примечания, представляющие собой пояснительный текст на естественном языке. Приводятся в косых скобках и не являются частями лексических единиц.

Ключевые слова должны быть приведены в тезаурусе в унифицированной грамматической форме:

  • различные формы глагола заменяются существительными;

  • различные формы прилагательного, используемого в качестве отдельного КС, заменяются формой именительного падежа единственного числа мужского рода;

  • различные формы существительного заменяются формой именительного падежа;

  • существительные, имеющие две формы числа (единственное и множественное), приводятся к типовым формам согласно ГОСТ 18383–73.

Словосочетания приводятся в ИПТ в прямой форме (не инвертируются).