Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Мишенин ТЭИС.doc
Скачиваний:
5
Добавлен:
20.04.2019
Размер:
2.28 Mб
Скачать

4.3 Тезаурусы экономической информации

Первоначально идея разработки тезаурусов возникла в словарной практике в связи с составлением толковых словарей. Тезаурусы использовались как средство описания семантической структуры естественного языка. Затем они были применены в практике автоматизированных информационно-поисковых систем.

Термин "тезаурус" является общеупотребительным и общепринятым термином как элемент информационного языка, позволяющего фиксировать парадигматические отношения и отношения синонимии между понятиями предметной области.

Для обеспечения возможно большей полноты задачи при информационном поиске, основанном на дескрипторных информационно-поисковых языках (ИПЯ), необходимо избыточное индексирование документов и информационных запросов.

Под избыточным индексированием понимается дополнение поискового образа документов или поискового предписания дополнительными дескрипторами, которые связаны по смыслу с основными дескрипторами. При этом более предпочтительным считается избыточное индексирование не документов, а информационных запросов.

Для того чтобы можно было производить избыточное индексирование, необходимо преобразование алфавитного словаря дескрипторов в нормативный словарь-справочник, в котором были бы наглядно выражены важнейшие парадигматические связи между дескрипторами.

Тезаурус - это словарь-справочник, в котором перечислены все лексические единицы ИМЯ с синонимичными им словами, а также выражены все важнейшие смысловые отношения между лексическими единицами.

Традиционно на тезаурус, как на элемент информационного языка, возлагаются следующие функции:

  • быть средством формализации лексики;

  • быть средством терминологического контроля, с помощью которого сводится воедино и приводится к общему знаменателю лексическая многозначность, синонимия;

  • быть средством избыточного индексирования информационных запросов;

  • быть средством выражения парадигматических отношений языка.

Основные этапы разработки тезауруса можно свести к следующим:

1. Выбор источников лексики и отбор терминов.

2. Составление терминологического словаря.

3. Группировка терминов в тематические классы.

4. Формирование классов условной эквивалентности.

5. Установление парадигматических отношений.

6. Определение структуры тезауруса.

При выборе источников лексического материала для тезауруса необходимо учитывать:

  • наиболее точное соответствие документов тематической направленности информационной системы;

  • технологическую насыщенность документов и важность содержащейся в них информации;

  • связь документов со смежными подсистемами.

Для отбора лексического материала необходимо использовать экономические документы, отражающие количественные и качественные характеристики экономического объекта. Кроме того, надо пользоваться такими вспомогательными средствами, как толковые и терминологические словари, справочники по исследуемой тематике, общесоюзные классификаторы.

Одним из важных источников для отбора лексического материала является изучение информационных потребностей пользователей, которое можно проводить с применением специально разработанных карт обследования.

Отбор терминов определяется специальными правилами. Перечислим некоторые из них:

  • узкие термины следует применять, если в словаре отсутствуют подходящие более общие термины;

  • многословный термин вводить в том случае, если обозначаемое им понятие встречается довольно часто;

  • использовать вместо словосочетания два или более отдельных термина следует в том случае, если обозначаемое этим словосочетанием понятие является членом того же класса, что и каждый из этих отдельных терминов;

  • прилагательное следует употреблять в сочетании с существительным.

В терминологическом словаре каждому отобранному термину дается определение, соответствующее его экономическому смыслу. Терминологический словарь служит в качестве пособия при формировании запросов конечными пользователями.

Все термины классифицируются в зависимости от функционального назначения в тематические классы. Тематический класс представляет собой группу терминов, несущих целевую направленность. Ниже приведен перечень тематических классов экономической лексики, и каждому из них дано соответствующее толкование.

Наименование тематического класса

Толкование тематического класса

1. Экономические категории, действия, события

Термины, характеризующие экономические сущности и процессы

2. Субъекты действия

Термины, обозначающие название подразделений

3. Объекты действия

Термины, описывающие предметы, являющиеся объектами первого тематического класса

4. Назначение действия

Термины, описывающие целевое назначение или виды целевого использования каких-либо ресурсов

5. Место действия

6. Источник поступления (финансирования)

Термины, конкретизирующие источник денежных средств или материальных ресурсов

7. Время действия

8. Функция управления

Термины, характеризующие тип реализации (по плану, фактически, ожидаемое выполнение)

9. Единица измерения

10. Атрибутивные характеристики действия

Термины, описывающие отличительные свойства элементов первого и третьего классов (способ исполнения, разряд работ и т. п.)

11. Обоснование действия

Термины, описывающие распоряжения и приказы на выполнение какого-либо действия

12. Причина отклонения

Термины, описывающие источники, вызывающие нарушения нормальной работы объекта

Дальнейшая работа по составлению тезауруса заключается в устранении многозначности (омонимия, полисемия) и синонимии тех терминов, которые включены в терминологический словарь.

Омонимия - это совпадение в звучании и написании разных слов, которые не имеют ничего общего ни по происхождению, ни по функционированию. Например: лук (растение) и лук (оружие). Снятие омонимии при обработке тезауруса осуществляется лексикографически, т.е. путем указания в скобках слов, уточняющих смысл омонима.

Полисемия - это перенос названия одного предмета на другие предметы на основании сходства (по форме, цвету, внутренним свойствам, функциям). Например: звезда (геометрическая фигура) и звезда (небесное тело), матрица(математическая) и матрица (техническая).

Омонимия и полисемия устраняются лексикографически при редактировании терминологического словаря.

Синонимия как явление естественного языка заключается в том, что одному "означаемому" (предмету, явлению) соответствует одно и более "означающих" (слов, словосочетаний). Например: алфавит - азбука, студенты - студенчество.

При построении тезауруса устранение синонимии производится путем группировки терминов в классы условной эквивалентности (КУЭ).

В КУЭ объединяются термины, между объемами понятий которых существуют отношения:

  • равнозначности, когда объемы понятий полностью совпадают (геомагнетизм - земной магнетизм);

  • перекрещивания, когда лишь часть объема одного понятия входит в объем другого понятия и, в свою очередь, лишь часть объема второго понятия входит в объем первого понятия (книга - монография);

  • подчинения, когда объем одного понятия составляет часть объема другого понятия (стол - мебель);

  • внеположенности, когда объемы понятий полностью исключают друг друга и при этом не исчерпывают области предметов, о которых ведется рассуждение (стол - стул: общий класс - мебель).

Объем понятий - это множество (класс) предметов, каждый из которых обладает всей совокупностью свойств и признаков, отражающих содержание этого понятия.

В качестве основания для группировки в классы условной эквивалентности может быть использовано любое из этих отношений. В результате формирования классов условной эквивалентности термины тезауруса группируются в синонимические ряды.

В каждом синонимическом ряду выделяется доминанта, то есть такой термин, который может заменить любое слово класса. Доминанту принято называть дескриптором. Однако фактически дескриптором является не имя КУЭ, а сам этот класс.

Основными критериями при выборе термина являются:

  • полнота выражения смыслового назначения данного класса условной эквивалентности;

  • значимость термина для поиска информации;

  • научно-техническая точность термина и возможность его использования для индексирования;

  • распространенность термина;

  • краткость термина и понятность его для неспециалиста;

  • частота появления термина в различных источниках;

  • частота первичного использования термина при индексировании и поиске.

В качестве дополнительного условия при выборе дескриптора из КУЭ экономической лексики следует учитывать необходимость приведения дескрипторов к единой грамматической форме, то есть выбирать в качестве дескриптора термин, имеющий форму существительного.

Отметим, что парадигматические отношения в тезаурусах могут выражаться четырьмя способами:

  • лексикографически;

  • при помощи таблиц;

  • аналитически;

  • графически.

Лексикографический способ предполагает наличие специальных помет, которые указывают, в каких парадигматических отношениях находится данный дескриптор с заглавным.

Табличный способ заключается в том, что под заглавным дескриптором записываются со сдвигом на несколько знаков вправо дескрипторы, находящиеся с заглавным дескриптором в определенном (и только одном) отношении. Такой способ чаще всего применяется в библиотечно-библиографических классификациях.

При аналитическом способе парадигматические отношения выражаются при помощи структуры кодов дескрипторов.

Примером применения аналитического способа может служить универсальная десятичная классификация.

Графический способ предполагает применение различных - графических схем.

Терминам экономических документов присуще то свойство, что среди всех парадигматических отношений определяющими являются отношения "род-вид" ("вид-род"), обозначающие смысловую соподчиненность терминов по объему понятий, "целое-часть" ("часть-целое"), дающие математическую взаимосвязь экономических категорий.

Поэтому наиболее удобным будет сочетание лексикографического и табличного способов выражения парадигматических отношений. При этом для экспликации парадигматических отношений и отношений синонимии используются условные обозначения, рекомендуемые ГОСТом, а именно:

н - нижестоящий видовой дескриптор по отношению к заглавному дескриптору;

в - вышестоящий родовой дескриптор по отношению к заглавному дескриптору;

ц - дескриптор находится в отношении - целое к заглавному дескриптору;

ч - дескриптор находится в отношении - часть к заглавному дескриптору;

с - ключевое слово находится в отношении синонимии к заглавному дескриптору;

см - отсылка от ключевого слова к дескриптору.

Структура тезауруса влияет на результаты поиска и соответственно на эффективность работы всей системы.

Как правило, тезаурус представляется в виде совокупности расположенных в алфавитном порядке дескрипторных статей (семантических сегментов). Семантический сегмент представляет собой совокупность заглавного дескриптора и всех дескрипторов, связанных с ним какими-либо парадигматическими отношениями, а также ключевых слов, находящихся с заглавным дескриптором в отношении синонимии. Например:

Выпуск с выпущено с выработано с произведено с производство Кольца уплотнительные круглого сечения в Кольца уплотнительные н Кольца резиновые уплотнительные круглого сечения, резина группы 0 н Кольца резиновые уплотнительные круглого сечения, резина труппы 1

ВОПРОСЫ И ЗАДАНИЯ

1. С какой целью правило, примененное механизмом вывода, исключается из дальнейшего рассмотрения?

2. Как зафиксировать в базе знаний правило, условная часть которого образована путем соединения фактов с помощью логической операции "или"?

3. Распределите указанные ниже термины по тематическим классам. Укажите в пределах класса, там где это возможно, условные обозначения парадигматических отношений. Список терминов:

предприятие, организация, склад, стеллаж, ячейка, марка, сорт, профиль, размер, тонна, цена, норма запаса, материал, дюраль, поставщик, получатель, приход, расход, остаток, лимит, выдано с учетом возврата, остаток лимита.

4. Трансформируйте программу на Прологе, чтобы напечатать список подчиненных для конкретного сотрудника.