- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
1.2.2. Семантические поля, тезаурусы, темы и подтемы
Некоторые словари, например, словарь Павла Литвинова [51], пытаются применить древесный принцип организации слов; темы, в рамках которых располагаются слова, разделены на несколько уровней. Однако никаких общих принципов такой классификации не предлагается.
С точки зрения современной лингвистики семантические поля представляют собой семантические классы слов, разбивающих весь вокабуляр на особые групп понятий, выражаемых словами.
Сегодняшняя наука предлагает следующее представление о семантических полях: все множество слов может члениться на отдельные поля, при этом различные поля пересекаются и не имеют четких границ. Целостность семантического поля определяется ассоциативными связями или неким соответствием с названием этого семантического поля. Еще одно свойство семантических полей есть то, что они представляют собой «большие массивы неупорядоченной лексики». Упорядочить их полностью до сих пор считалось вопросом будущего. Таким образом, в семантическом поле как нечетком множестве, во-первых, невозможно однозначно определить принадлежность слов к этому полю, во-вторых, трудно определить отношения порядка на нем как на множестве. В предлагаемой работе лексические пласты и далее отдельные единицы языка в этих пластах полностью упорядочиваются.
Следующая особенность семантических полей есть смысловое обобщение всех слов на основе категорий частей речи, идущее еще от Аристотеля. Это категории: предмет, признак, действие и т. п. По мнению современных исследователей, часть речи является лексико-семантической парадигмой высшего ранга, которая членит весь словарный состав языка на большие классы слов единиц языка, имеющих крайне абстрактное значение. Вероятно, следует считать части речи в принципе не семантическими. Они существуют параллельно с синтаксическими категориями, наряду с ними определяющими слова языка.
Нельзя не согласиться с тем, что при выделении семантических полей существует «опасность отождествления схожих, но не тождественных признаков», то есть отождествления общего и частного. Подобные суждения имеют свои истинные основания. Хотелось бы при этом не останавливаться в анализе лексики на слишком широком множестве понятий и не считать классы (предмет, признак предмета, действие, процесс или какое-либо иное множество слов) пределами обобщения. При этом современной наукой о языке не принято доказывать достаточность этих классов для классификации любых понятий.
В связи с этим некоторыми учеными высказывается мнение о необходимости «сближения толкового и идеографического словарей, чтобы сама позиция слова в статье тезауруса была семантически значимой, служила бы его семантическим признаком» [39]. Указанные принципы реализованы в предлагаемом словаре, что дает возможность порождать язык в системах семантически ориентированного взаимодействия с пользователем.
1.2.3. Задача представления иерархии языковых единиц
В личном письме Р. Г. Пиотровский определил сегодняшний путь науки к решению проблемы формализации семантики. Он указал на то, что якобы одному человеку не под силу формализация языка в целом, и следует заниматься заранее ограниченной «замкнутой» системой языка. Тем не менее, в предлагаемой работе именно отказ от ограничения классификации в рамках какой-либо узкой области привел к созданию системы, описывающей сходство и отличие понятий из самых разных областей знания.
Наиболее известными на сегодня иерархиями слов являются словари тезаурусы, активаторы. Их отличительными особенностями являются:
-
Отсутствие деления узла иерархического дерева на достаточные для классификации любого понятия признаки.
-
Отсутствие «симметрии» при классификации различных узлов этих деревьев, то есть общего признака для каждого отдельно взятого уровня классификации.
-
Произвольность группировки слов по любым принципам: гиперонимии, ассоциативности и др.
-
Чрезмерно длинные объяснения родовых отличий между классифицируемыми словами, без выделения одного главного и определяющего отличия.
Примерами таких классификаций являются: активаторы фирмы Лонгман, словарь Павла Литвинова, 3000 английских слов, техника запоминания.
Современные толковые словари имеют следующие недостатки:
-
Отсутствие единообразных определений для схожих слов языка.
-
Наличие «кругов» в определении слов, например, в словаре Harrap’s Dictionary слово «happy» определяется как «content», «content» как «satisfied», а «satisfied» как «joyful» и «happy».
Таким образом, актуальной является проблема построения максимально ясной, простой и единообразной иерархической структуры данных, в частности словарей, без чего системы анализа речи являются либо мало эффективными, либо ограниченными узкой предметной областью. При этом, необходимо перейти от концепции «очень сложной машины», при помощи скрытых от пользователя операций выдающей как правило «достаточно непредсказуемые» ответы на запросы пользователя, к концепции максимально простой и ясной структуры данных, где как пользователь, так и машина оперирует не отдельными словами, а целыми классами слов языка. Последнее должно гарантировать смысловое соответствие внутренней структуры данных, алгоритмов порождения и поиска, а так же представления о системе у пользователя.