- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
Глава 2. Принцип объектных определений как основа классификации единиц языка
2.1. Формализация дефиниций
Для того чтобы построить рекурсивную систему определения всех единиц языка для обеспечения простого, дружелюбного и быстродействующего интерфейса, необходимо выполнить следующие требования. В основание рекурсивного определения языковых единиц необходимо положить минимальное число первоначальных единиц языка и представить все остальные единицы языка как сочетания первоначальных единиц. Все определения единиц языка друг через друга должны укладываться в строгую классификацию с общими классификационными признаками на каждом уровне классификации и достаточным множеством возможных значений каждого признака для классификации любых единиц. Признаки каждой последующей классификации являются классифицируемыми единицами в предыдущей классификации. Последовательность таких классификаций должна включать все единицы, от элементарных – сем, слов-понятий, предложений – до логически связанных множеств предложений – высказываний и семантических фактов – информации приведенного вида, полученной из текстов.
2.1.1. Общий вид формальной дефиниции
Обозначим A = {A1,...,Am} множество смысловых единиц, используемое для определения произвольного множества B = {B1,…,Bn} смысловых объектов. Назовем A множеством единиц на входе классификации, а B – множеством единиц на выходе классификации. Будем говорить, что множество B определяется через множество A. При этом, B 2Θ, где Θ есть множество всех возможных единиц на входе классификации и отношений между ними: Θ =A T(A) N(A) N(T(A)), где T (A) – множество всех возможных бинарных отношений смыслового тождества на A, N(A) – множество всех возможных отрицаний элементов A, а N(T(A)) – множество всех возможных отрицаний отношений тождества на A.
Пусть B:=S(A) есть преобразование множества на входе классификации в множество на выходе, интерпретируемое как композиция входных смысловых единиц.
Произвольный элемент Bt B представляется как
Bt := S(Ai1, …, Aif, Tj1, …, Tjv, Ng1, …,Ngp),
где Ai1, …, Aif A; Tj1, …, Tjv T(A), Ng1, …,Ngp N(A) N(T(A)).
Значением преобразования S(…) является единица на выходе классификации Bt, которая строится как совокупность элементов, полученных в результате преобразования конкретных элементов множества А. Для этих элементов будем использовать обозначение <Bt.Aik>.
Каждая новая единица определяется через множество компонентов, например, понятие
зоология := S(наука, животные),
здесь A={наука, животные}, B={зоология}.
Можно также записать:
зоология := S(наука, животные, T(наука.предмет, животные).
«Зоология», таким образом, определяется через два понятия, в противоположность неформальным определениям вида «зоология это наука, изучающая животный мир во всем его многообразии» и т. п, включающих множество лишних слов-связок. В приведенном выше формальном определении отождествляются компоненты значений «наука» и «животные», при этом компонента значения «предмет» этой науки тождественна компоненте «животные» значения понятия «животные».
Определим также многошаговую композицию как
(C := S(A)) (B:= S(A), C:=S(B)) ,
в которой множеством входных смысловых единиц служит множество B выходных единиц композиции S(A), C – множество выходных единиц композиции S(B).
В лингвистической науке говорят, что значение содержит в себе элементы, или компоненты значения. Чтобы описать это представление формально, будем говорить, что семантика единицы языка представляет собой объект, состоящий из системы смысловых компонентов. Запись «Ct.Bd.Ak» означает, что С есть объект, B – промежуточный объект, а A – его компонента.
Формула Ct := S(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp), где B=S(A), представляет собой формальное определение семантического объекта. Здесь Tjw = T(Bh.As, Bh’.As’), а Ngy = N(Bz) или N(T(Bh.As, Bh’.As’)). Приведем примеры такого определения, где В – входное множество для C и выходное для A:
Пусть A={содержание}, B={картина, место}, С={пейзаж}, тогда
пейзаж := S(картина, место, T(картина.содержание, место), T(пейзаж, картина)).
В этом примере компонента «содержание» значения понятия «картина» отождествляется с понятием «место». Другой пример:
Пусть A={содержание, субъект}, B={вера, Бог}, С={атеист}, тогда
атеист := S(вера, Бог, T(вера.содержание, Бог), T(атеист, вера.субъект), N(вера)).
В этом примере «субъект» понятия «вера» (человек, который верит) тождественен понятию «атеист», а само понятие «вера» отрицается.
Значительно проще работать с определениями, если одной формулой определять смысловое содержание множества слов. В этом случае это множество слов получает дефинитивную классификацию, отражающую сущность всех использованных в ней определений.
Классификации, преобразующие единицы низкого уровня в единицы высокого уровня, представляются как деревья. Последовательность деревьев задает последовательный вывод единиц все более высокого уровня.
Для определения языковых единиц будем использовать «расширенную» троичную классификацию, то есть классификацию, предусматривающую деление на A, A и A, где обозначает присутствие или отсутствие отрицания, то есть то, что отрицание не определено (запись «A» читается «возможно A»). Помимо этого классификация может также предусматривать распределение множества значений на числовой шкале Ak A.