- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
1.3. Лингвистические исследования множества слов в речи
1.3.1. Тождественные элементы значения слов в тексте
Отождествление компонентов значения является свойством слов и сем текста. В тексте значения слов отличаются семантической общностью. Например, в синтагме «тянуть телегу» понятие «тянуть» подразумевает физическое тело, изменяющее свои координаты в пространстве. «Телега» - это физическое тело, созданное человеком для передвижения в пространстве. Таким образом, понятия «движение» и «физическое тело» есть признаки. Они обеспечивают общность значений «тянуть» и «телегу» в приведенном сочетании слов. «Семантическая общность лексических значений различных слов - основа реализации функции контекста» [12]. Повторы смысловых компонентов должны иметь место в тексте и заголовке текста, различных частях текста, в синтагматических парах, фразах и предложениях. Контекст действует, во-первых, как уточняющий, а, во-вторых, как восстанавливающий, компенсирующий аппарат, а это значит, что он выполняет три функции:
1) уточняющую,
2) идентифицирующую и актуализирующую,
3) восстановительную.
Рассмотрим повторяющиеся признаки в рамках целого предложения, как это делают другие исследователи. Во фразе «первооткрыватели назвали этот элемент германием» автор сопоставил каждому слову набор признаков а, б, с и так далее:
-
первооткрыватели –
а, б, в, д;
назвали –
г, в, д;
этот элемент –
в, д;
германием –
г, в, е, д.
Здесь
а – лицо,
б – открывать,
в – объект, элемент,
г – называть,
д – доселе неизвестный объект,
е – металл.
Как видно из семантической записи, сквозными повторяющимися признаками являются: в (объект, элемент), д (доселе неизвестный). Обеспечивая семантическое согласование, эти два признака выступают то как основные, то как конкретизирующие, подчиненные в комбинациях (а, б, в, д), (г, в, д), (г, в, е, д).
Задача разработки алгоритма порождения всех, в частности, синонимичных высказываний, ставится, например, Селиверстовой О. Н:. «Задача синтеза предложений естественного языка, синонимичных друг другу и исходному предложению ставится как задача множественного синтеза; необходимо получить по возможности все предложения, синонимичные данному». Например,
1. Артиллерия обстреливает аэродром. Артиллерийский обстрел аэродрома. Обстрел аэродрома артиллерией.
2. Реформировать экономику. Реформа экономики. Экономическая реформа.
3. То, что сказал Петр, заставило меня сильно возмутиться. Слова Петра возмутили меня до глубины души. Слова Петра вызвали у меня глубокое возмущение. От слов Петра меня охватило огромное возмущение. Слова Петра были причиной моего глубокого возмущения. Мое глубокое возмущение было результатом / следствием слов Петра. Мое глубокое возмущение было вызвано словами Петра. Я негодовал по поводу слов Петра. Я говорил, что слова Петра мне не понравились. Я подумал, что мы не можем мириться со словами Петра. По моему мнению, слова Петра были ужасны и т.д.
Так на основе предложенных определений можно доказать формально бессмысленность различных фраз. Трудности с осуществлением подобных операций на естественном языке вызваны, в частности, полисемией. Так, глагол «know» может подразумевать как «иметь представление о», так и «быть знакомым с». Предлагаемая в работе классификация понятий полностью устраняет полисемию классифицируемых слов в каждом конкретном значении.
В рамках принципа максимальной простоты и ясности структуры данных и операций сразу над целыми группами языковых единиц необходимо с наибольшей ясностью представлять символьную информацию в самих текстах. Концепция устранения семантического шума, предлагаемая далее, призвана приводить смысл к простейшему стандартному виду (например, трансляция фразы с семантическим шумом «Ты моя любовь, ты моя судьба» во фразу без семантического шума «Очевидно, ты будешь любить меня» и, далее, в любую синонимичную ей фразу, например «Явственность будущего с моим любимым поселилась в моей душе»). Построение естественно-языковых (ЕЯ) интерфейсов именно на основе фраз приведенного вида должно облегчить их обработку, сравнение с информацией в базах данных и дружелюбность во взаимодействии с пользователем.