- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
2.1.2. Последовательность классификаций единиц языка
Необходимым условием классификации единиц языка является отсутствие кругов (циклов) в их определении. Последовательность вывода единиц одного уровня через единицы другого записывается следующим образом.
A:=S(Ekb, …),
B:=S(Ajs, …),
C:=S(Bid, …).
Объекты множества {E} будем называть первоэлементами языка, или базисом.
При этом не может иметь место:
B:=S(Ajs, …),
A:=S(Bid, …).
или
A:=S{Cgt, …),
B:=S(Ajs, …),
C:=S(Bid, …).
Иначе говоря, не допускаются круги в определении единиц языка. При переходе от единиц A, B до единицы C и т.д. неизбежен переход к единице E, для которой невозможно записать формулу композиции.
В современных толковых словарях рассматривается множество изолированных друг от друга кластеров синонимов, когда, например, слова в классической словарной статье определяются друг через друга по кругу [4]:
condition := S(state) и state := S(condition).
Либо более сложные циклы:
Happiness:=S(joy), joy:=S(satisfaction, happiness), satisfaction:=S(content), content:=S(happiness, satisfaction)
В настоящей работе предлагается система классификаций, которая позволяет дать определение словам языка, избегая кругов в определении, для этого при последовательном сведении единиц языка друг к другу вводится специальный базис смысловых классификаций – множество {Es}. В следующей главе показаны средства задания классификаций в рамках предложенных принципов, что позволяет свести базис определений до одного единственного понятия «тождество» [16, 68].
2.1.3. Определение базиса понятийного аппарата словарных дефиниций
До сих пор толковые словари сводили все слова языка к специально отобранному множеству языка из одной-двух тысяч слов. Так, например, словарь Longman’s English Dictionary описывает язык двумя тысячами слов.
В работе предлагается в целях формализации не вводить никаких семантически нагруженных единиц, кроме объекта, отрицания и тождества. Общая схема определения имеет вид, как уже говорилось:
Ak:= S(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp).
При этом в части S(Bi1, …, Bif, Tj1, …, Tjv) определяется новый дефинитивный признак, а множество S(Ng1, …,Ngp) определяет разбиение по этому признаку и его аспектам множества значений этого нового признака на подмножества {(Ngh), (Ngh), (Ngh)}, где (Ngh) означает, что отрицание (Ngh) не определено. В результате интеллектуальная система может рассматривать не отдельные единицы языка, а классификацию единиц языка в целом. Классификация предлагаемого типа помогает максимально компактно записать определения семантических единиц, что должно значительно упростить поиск информации для обеспечения функционирования ЕЯ интерфейса. При этом можно построить такую формулу S(Bi1, …, Bif, Tj1, …, Tjv), которая является единой формулой для определения единиц всей классификации. Понятия, определяемые этой формулой, отличаются лишь множеством S(Ng1, …,Ngp), индивидуальным для каждого понятия этой классификации, за исключением полных синонимов. Отвлекаясь от значения формулы S(Bi1, …, Bif, Tj1, …, Tjv), можно представить последовательность аргументов S(Ng1, …,Ngp) как вектор семантических признаков G = <G1, G2, …Gp>, где G1, G2, …Gp есть отрицаемые элементы преобразования S(Ng1, …,Ngp). Такой вектор легко использовать для определения позиции слова или групп слов в классификации. Использование вектора семантических признаков позволяет получить формальное представление для любого компонента или осмысленного множества компонентов объекта-классификации.