- •Московский государственный
- •Постановка задачи
- •Варианты задания
- •Содержание отчета
- •Методические указания
- •Основные понятия и определения.
- •Морфологический компонент лингвистического процессора ея.
- •Основные понятия и определения.
- •Морфологическая модель естественного языка.
- •Некоторые особенности и закономерности морфологии русского языка.
- •Морфологическая база данных
- •Морфологические анализаторы и синтезаторы ея.
- •Синтаксический компонент лингвистического процессора ея.
- •Синтаксическая модель естественного языка.
- •Модели представления синтаксической структуры предложения.
- •Деревья зависимостей.
- •Структуры непосредственно составляющих (нс-структуры).
- •Ориентированные структуры непосредственно составляющих (онс-структуры).
- •Частично ориентированные структуры непосредственно составляющих (чонс-структуры).
- •Типы формальных грамматик, используемых для описания синтаксиса естественного языка.
- •Грамматика зависимостей (gd).
- •Контекстно-свободные грамматики (gcf)
- •Сетевые грамматики.
- •Синтаксическая база данных.
- •Синтаксические анализаторы фраз ея.
- •Стратегия недетерминированного, фильтрового анализа.
- •Стратегия, опирающаяся на механизм возвратов (backtracking).
- •Стратегия детерминированного анализа.
- •Синтаксические отношения (связи, зависимости).
- •О многовариантности синтаксического анализа.
- •Указания по реализации, требования к спецификации программ.
- •Дополнительные сведения из теории компьютерной лингвистики.
- •Семантический компонент ея-систем.
- •Основные понятия и определения.
- •Теория концептуальной зависимости р.Шенка.
- •Теория лингвистических моделей «смыслтекст».
- •Падежные системы.
- •Звук и смысл.
- •Прагматический компонент ея-систем.
- •Основные понятия и определения.
- •Предмет изучения прагматического компонента.
- •Анализ связного текста (дискурса).
- •Литература
- •1. Постановка задачи 3
- •2. Варианты задания 4
- •3. Содержание отчета 4
- •4. Методические указания 5
- •5. Дополнительные сведения из теории компьютерной лингвистики. 25
О многовариантности синтаксического анализа.
Принципиальная многовариантность синтаксического анализа — узловая проблема для разработчиков синтаксических анализаторов.
Многовариантность возникает не только в связи с наличием морфологической омонимии (см. выше), но и синтаксической омонимии.
Синтаксическая омонимия — возможность выделения разных смыслов у одного предложения, обусловленная наличием у него разных синтаксических структур.
Примеры предложений, для которых принципиально невозможно разрешить синтаксическую омонимию:
«Мать любит дочь».
«Молодые мужчины и женщины…».
«Письмо отцу друга…».
«Тощая торговка вяленой воблой торчала среди ящиков».
«Сплочение рабочих бригад вызвало осуждение товарища министра».
«Привет освободителям Харькова от немецко-фашистских захватчиков».
«Школьники из Старицы поехали в Торжок».
«Это потрясло до глубины души оскорбленного брата».
«Девочка вытерла тщательно вымытую посуду».
«Я вижу только два дерева».
«Таблица допустимых размеров …».
«Я видел его молодым».
Указания по реализации, требования к спецификации программ.
Требуемый морфологический или синтаксический компонент должен быть реализован на одном из объектно-ориентированных языков программирования с использованием библиотек соответствующих сред разработки.
Морфологический компонент должен состоять из нескольких модулей, одним из которых должен быть так называемый менеджер морфологической базы данных. Вся логика работы с БД (открытие, закрытие, доступ к морфологическим данным и их модификация) должна быть инкапсулирована внутри менеджера БД. При этом остальные модули компонента должны работать с БД только через программный интерфейс менеджера.
Возможно (по согласованию с преподавателем) для одного ЕЯ и однотипной морфологической модели реализовать одну базу данных для использования несколькими студентами, при этом морфологический анализатор и синтезатор должны быть индивидуальны.
Синтаксический компонент также должен состоять из нескольких модулей, среди которых должен быть модуль работы с синтаксической базой данных, модуль преобразования формального текстового описания грамматики в выбранное внутреннее представление, модуль синтаксического анализа, модуль визуализации полученной синтаксической структуры входного предложения.
Спецификация программы должна содержать:
описание модульной структуры (описание модулей и их взаимосвязей);
описание структур данных для представления морфологической или синтаксической информации;
описание программного интерфейса соответствующего компонента с примерами взаимодействия.
Дополнительные сведения из теории компьютерной лингвистики.
Компьютерная лингвистика изучает различные аспекты (теоретические, алгоритмические, программистские), связанные с реализацией всевозможных систем, обрабатывающих какие либо высказывания на ЕЯ (ЕЯ-систем).
Можно выделить следующие основные классы ЕЯ-систем.
Интеллектуальные вопрос-ответные системы. При разработке этих систем основное внимание уделяется развитию моделей и методов, позволяющих осуществлять перевод высказываний на ЕЯ, относящихся к узким и заранее фиксированным проблемным областям, в формальное представление, интерпретацию этих высказываний и генерацию ответных высказываний на ЕЯ по заранее известным, фиксированным правилам.
Системы общения с базами данных. Основная задача таких систем заключается в выполнении перевода запросов неподготовленных конечных пользователей базы данных с ЕЯ на формальный язык запросов к базе данных.
Диалоговые системы решения задач. Эти системы берут на себя не только функции доступа к базе данных, но и функции интеллектуального монитора, обеспечивающего решение заранее определенных классов задач (например, планирование путешествий, составление контрактов). Основное направление использования этих ЕЯ-систем — реализация естественноязыкового общения с экспертными системами.
Системы обработки связных текстов. Эти системы занимаются обработкой текстовой информации и речи. Объем и разнообразие такой информации возрастает с каждым днем. Развитие и совершенствование систем автоматической обработки текстов на ЕЯ (АОТ-ситем) в настоящее время является наиболее актуальным и перспективным. Примеры областей применения АОТ-систем: обучение естественному языку, автоматический перевод, автокорректоры, распознавание речи, синтез речи, автоматическое реферирование, поисковые системы.
Практически любые ЕЯ-системы в той или иной форме имеют и используют морфологический компонент ЛП, некоторые из них так или иначе используют и синтаксический компонент ЛП. Наиболее развитые и сложные ЕЯ-системы имеют в своем составе также семантический и прагматический компоненты и анализируют не только отдельные предложения, но и входной текст в целом.