- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
Выводы к главе 3
Показана возможность задавать значения вектора признаков, определяющие понятийное пространство и включающие любые слова естественного языка. Представленный в работе словарь на 10000 слов английского языка сопоставляет смысловым понятиям слова естественного языка. В результате становится возможным оперировать любым осмысленным подмножеством понятийного пространства слов и понятий языка и упорядочивать подмножества слов в рамках естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. Предложенный тип интерфейса может явиться посредником между естественным языком общения людей и языком команд и запросов в интеллектуальных системах. Можно комбинировать эти группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка. Подстановочные таблицы служат основой построения простых и продуктивных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.
Глава 4. Программное обеспечение естественно-языковых интерфейсов
4.1. Системы «Электронный словарь» и «Электронный разговорник»
На основе алгоритмов порождения естественного языка при помощи подстановочных таблиц выполнена программная реализация систем «Электронный словарь» и «Электронный разговорник». Эти системы предназначены для:
-
автоматической генерации фраз и текстов на естественном языке;
-
полуавтоматического построения шаблонов для последующей генерации фраз и текстов.
Разработанные системы заключают в себе алгоритмическое и программное ядро для построения естественно-языковых интерфейсов.
Системы прошли апробацию на задачах обучения иностранным языкам. Системы с одинаковой эффективностью функционирует на различных естественных языках – английском, немецком, испанском, русском. На этих языках были полуавтоматически сгенерированы подстановочные таблицы, достаточные для последующей генерации семантически и грамматически осмысленной речи.
Данный комплекс программных систем реализует следующую схему порождения фраз естественного языка для естественно-языкового интерфейса.
-
Полуавтоматическое построение шаблонов для последующей генерации естественного языка.
-
Выбор грамматических шапок для каждой колонки таблицы.
-
Выбор лексических групп для каждой колонки таблицы.
-
Копирование таблицы в особый файл.
-
При необходимости возможен просмотр и постредактирование полученного файла в программе Microsoft Word, или любом другом редакторе, поддерживающем формат html.
-
2. Создание базы данных для генерации осмысленных фраз на основе полученных таблиц – шаблонов.
-
Создание иерархии названий файлов, содержащих таблицы генерации высказываний. Последовательности подстановочных таблиц связаны синтагматическими комбинаторными отношениями, то есть генерируемые при их помощи предложения объединяются в ассоциативно или логически связный текст.
-
Подсоединение в полученную иерархию сгенерированных файлов подстановочных таблиц.
-
Автоматическая генерация осмысленных фраз и текстов естественного языка.
-
Цикл:
-
Выбор нужного шаблона – файла с подстановочной таблицей из иерархии шаблонов.
-
Выбор одного из двух вариантов генерации фраз:
-
Либо автоматическая генерация одного из множества осмысленных высказываний на основе подстановочной таблицы шаблона.
-
Либо выбор одного из множества осмысленных высказываний шаблона.
-
-
-
Сохранение полученной информации в виде текстов.
-
Использование полученных текстов, например, для отправки их в виде писем по сети Internet.
-
-
Создание базы когнитивных функций на основе сгенерированных и присоединенных к иерархии таблиц шаблонов.
-
Цикл:
-
Выбор нужного шаблона – файла с подстановочной таблицей из иерархии шаблонов.
-
Выбор одного из двух вариантов генерации фраз:
-
Либо автоматическая генерация одного из множества осмысленных высказываний на основе подстановочной таблицы шаблона.
-
Либо выбор одного из множества осмысленных высказываний шаблона.
-
-
-
Сохранение полученной информации в виде базы когнитивных функций – обучающей таблицы.
-
Использование полученных обучающих таблиц, например, для обмена информацией приведенного вида или процесса обучения.
-
-
Генерация фраз естественного языка на основе базы истинных когнитивных функций (пока программно не реализована).
-
Выбор одного из вариантов развития мысли в иерархии подстановочных таблиц.
-
Выбор одного из истинных высказываний в соответствующей обучающей таблице.
-
Последовательное умножение этого высказывания или подфрагмента таблицы на ряд таблиц семантического шума из фиксированного множества таблиц семантического шума для получения текста на основе истинной информации приведенного вида.
-
Данная алгоритмическая схема может служить основой для построения естественно-языкового интерфейса и большей частью реализована в программах «Электронный словарь» и «Электронный разговорник», которые апробированы на задачах обучения иностранным языкам [94].