- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
1.3.2. Сильные и слабые импликации в тексте
Важным понятием современной лингвистики является понятие об импликациях или денотациях, то есть парах слов, способных согласовываться друг с другом по смыслу и грамматически, образуя синтагматические отношения.
При этом затекст, то есть представление обо всех вариантах употребления слова в речи, формируется как представление об истинных и ложных денотациях, то есть о сочетаемости пар слов. Это то, что Никитин М. В. называет импликациями. Никитин М. В. предлагает исследовать импликации чисто статистическими методами, т. е. выявляя определенные синтагматические пары в текстах и классифицируя их по частотности как сильные или слабые. [67]
Селиверстова О. Н. делит комбинаторику слов на разные аспекты: логический, конфигуральный и стилистический [78].
Логический аспект, названный представлением об истинных и ложных денотациях, присутствует во всех осмысленных текстах. В предложении «Мальчик играет в мяч» рассмотрим синтагматическую пару «Мальчик играет» с уже уточненным лексико-семантическим вариантом (одного из значений) слова «играет». Таким образом, событие, которое осуществляет мальчик, относится к классу «играть», и это есть его истинная денотация и сильная импликация. С точки зрения необходимости минимизации затекстных представлений можно сказать, что «играть» есть свойство, в том числе детей; мальчик суть ребенок, отсюда силлогизм дает вывод: играть есть свойство мальчика. Помимо логической можно также выделить конфигуральную и стилистическую синтагматику. «Конфигуральные признаки определяют возможность и невозможность использования слова в том,\ или ином окружении, если смысловые признаки слова допускают это употребление» [78].
Очевидно, что предлагаемое далее представление об импликациях не одного слова другим словом, а одной группы слов другой группой слов делает лингвистическое представление об импликациях более доступным для программной реализации.
1.3.3. Порождающие грамматики
Порождающие грамматики используются в инженерной лингвистике как средство порождения предложений на основе набора слов естественного языка (терминальных символов), служебных слов (рабочих символов) и набора правил вывода одних строк символов через другие.
Вывод предложений всегда начинается с начального символа, заданного в порождающей грамматике. Набор правил, по сути, представляет собой все множество импликаций слов, о которых говорит Никитин.
Порождающие грамматики отличаются следующими ограничениями. Во-первых, представление семантики в рамках порождающих грамматик, например, с использованием семантических падежей, не позволяет учесть всю сложность внутренней семантической структуры языковых единиц и достаточно полно представить семантику языка. В результате бессмысленные предложения также включаются в язык порождающей грамматики, то есть во все множество порождаемых предложений. Вторым недостатком порождающих грамматик является то, что они учитывают лишь синтагматические отношения между словами (их грамматическое значение и (иногда) элементы семантического содержания). Они не учитывают наличие ассоциативных отношений между словами. Явным недостатком порождающих грамматик Хомского является то, что слова представляются в них как элементарные «точки», не имеющие своей структуры.
Сферой практического применения порождающих грамматик уже являются и системы проверки орфографии и пунктуации, и системы машинного перевода, качество которого пока оставляет желать лучшего. Экспертные системы в большинстве своем также анализируют текст при помощи порождающих грамматик, представляя его в виде семантической сети для поиска ее фрагментов. Приведем краткое описание стандартной порождающей грамматики.
Порождающая грамматика состоит из четверки основных компонентов:
(S, T, N, R), где
S - начальный символ,
T - терминальные символы,
N - нетерминальные символы,
R - множество правил вида:
à , где , {N T}, то есть принадлежат объединенному множеству цепочек терминальных и нетерминальных символов.
Существуют различные разновидности порождающих грамматик: контекстные и бесконтекстные, финитные и нефинитные и др. Так, например, простой набор правил:
Существительное à лань,
Существительное à лев,
Существительное à охотник,
Глагол à выследить,
Глагол à охотиться на,
S à существительное + глагол + существительное,
способен порождать предложения вида: лев охотится на лань, охотник выследил льва, лань охотится на охотника.
Набор правил вывода в порождающих грамматиках представляет собой то же, что и множество сильных и слабых импликаций языка, с той лишь разницей, что грамматики приспособлены к математическому аппарату для работы на вычислительных машинах, а импликации делятся на более или менее вероятностные (сильные и слабые). Множество правил порождающей грамматики не является читабельным для простого пользователя, что делает порождающие грамматики черным ящиком, при этом усложнение их структуры, например, путем введения семантических падежей, делает их еще менее познаваемыми и предсказуемыми, что к тому же делает составление такого множества правил делом весьма долгим. По нашим оценкам количество правил порождающей грамматики, необходимых для задания фраз, получаемых из подстановочных таблиц, настолько велико, что их хаотичная с точки зрения семантики запись вряд ли может быть осмыслена. Упорядочение же семантической структуры делает излишней саму идею порождающих грамматик как множества, а не структуры правил.