- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
1.5.1. Системы типа «Интерлингво» и машинный перевод
В последнее время в области систем машинного перевода господствует идея о необходимости создания систем Интерлингво. То есть все существующие языки должны переводиться на Интерлингво и обратно с Интерлингво. В результате можно было бы получать перевод с любого языка A на язык B, применяя цепочку A-I-B, где I есть язык Интерлингво. «Один из наиболее известных проектов interlingua-системы разрабатывается в Голландии под названием Distributed Language Translation (DLT, infoweb.magi.com /~mfettes /DLT.html). Эта разработка началась в 1979 году и была свернута к 1992 году. Но не успела она завершиться, как запустился новый Интерлингво-проект UNL или Universal Network Language. На этот раз (в 1997 году) инициаторами выступили японцы. Возникновение этого проекта непосредственно связано с потребностью перевода документов в Интернете. [27] Последний проект состоит в идее сопоставления словам неких атрибутов, отличающих их различные лексико-семантические варианты.
1.5.2. Проблемы создания языка описания семантики
Вопрос об международном искусственном языке без полисемии и конфигуральных условностей особенно активно разрабатывался в конце XIX века. Всего в мире насчитывается более 1000 проектов таких языков. Единственный язык такого рода, получивший относительно широкое распространение среди энтузиастов – язык Эсперанто. Он на сегодняшний день содержит около 1900 корней (в основном латинского происхождения) [24]. Эсперанто был основан на схожести многих европейских языков и содержит, таким образом, много схожих с другими языками слов. Грамматика Эсперанто отличается логичностью и простотой. Обширно словообразование в языке Эсперанто. Вектор признаков, определяющий каждое слово в предлагаемой в работе модели языка, может быть использован для построения слов языка типа Интерлингво. Для этого необходимо каждому значению элемента нашего понятийного вектора сопоставить определенную букву и звук или же иероглифическую ассоциативную картинку. При этом можно получить язык, содержащий в себе неограниченное количество производных от этих значений слов [88].
Существуют другие искусственные языки, такие как Basic English, содержащие 1000 слов и описывающий весь вокабуляр словосочетаниями видоизмененного английского языка [41].
Помимо традиционной цели искусственные языки международного общения могут иметь следующие области применения.
1. Для анализа языка.
2. Для общения с компьютерными программами и для их разработки.
Селиверстова О. Н., говоря о языке в широком смысле, пишет следующее: «Словарь семантического языка в идеале, который пока ни кем не был достигнут, должен удовлетворять следующему условию: каждое его слово должно выражать ровно одно, по возможности, элементарное значение, а все элементарные значения должны выражаться ровно одним словом семантического языка, совершенно не зависимо от того, в составе какого толкования оно встречается [41]», то есть такой язык должен удовлетворять требованиям детерминированности и однозначности.
Предлагаемый в работе словарь порождения языковых единиц полностью реализует эту задачу. В авторской постановке задачи сама структура дерева классификации. заданная вектором семантических признаков, является своего рода языком типа Интерлингво, поскольку все потенциально существующие узлы дерева классификации могут соответствовать словам того или иного языка. Все это делает ЕЯ интерфейсы единообразными для любых естественных языков. В работе указывается, что предлагаемая классификация слов и понятий языка, спроецированная на фонетическую систему, позволяет задать искусственный язык типа Интерлингво, и может использоваться для кодирования позиции слова в базах данных и в системах взаимодействия с программным обеспечением на естественном языке.