Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лингвистический процессор естественного языка.doc
Скачиваний:
78
Добавлен:
02.05.2014
Размер:
342.02 Кб
Скачать
      1. О многовариантности синтаксического анализа.

Принципиальная многовариантность синтаксического анализа — узловая проблема для разработчиков синтаксических анализаторов.

Многовариантность возникает не только в связи с наличием морфологической омонимии (см. выше), но и синтаксической омонимии.

Синтаксическая омонимия — возможность выделения разных смыслов у одного предложения, обусловленная наличием у него разных синтаксических структур.

Примеры предложений, для которых принципиально невозможно разрешить синтаксическую омонимию:

«Мать любит дочь».

«Молодые мужчины и женщины…».

«Письмо отцу друга…».

«Тощая торговка вяленой воблой торчала среди ящиков».

«Сплочение рабочих бригад вызвало осуждение товарища министра».

«Привет освободителям Харькова от немецко-фашистских захватчиков».

«Школьники из Старицы поехали в Торжок».

«Это потрясло до глубины души оскорбленного брата».

«Девочка вытерла тщательно вымытую посуду».

«Я вижу только два дерева».

«Таблица допустимых размеров …».

«Я видел его молодым».

    1. Указания по реализации, требования к спецификации программ.

Требуемый морфологический или синтаксический компонент должен быть реализован на одном из объектно-ориентированных языков программирования с использованием библиотек соответствующих сред разработки.

Морфологический компонент должен состоять из нескольких модулей, одним из которых должен быть так называемый менеджер морфологической базы данных. Вся логика работы с БД (открытие, закрытие, доступ к морфологическим данным и их модификация) должна быть инкапсулирована внутри менеджера БД. При этом остальные модули компонента должны работать с БД только через программный интерфейс менеджера.

Возможно (по согласованию с преподавателем) для одного ЕЯ и однотипной морфологической модели реализовать одну базу данных для использования несколькими студентами, при этом морфологический анализатор и синтезатор должны быть индивидуальны.

Синтаксический компонент также должен состоять из нескольких модулей, среди которых должен быть модуль работы с синтаксической базой данных, модуль преобразования формального текстового описания грамматики в выбранное внутреннее представление, модуль синтаксического анализа, модуль визуализации полученной синтаксической структуры входного предложения.

Спецификация программы должна содержать:

  • описание модульной структуры (описание модулей и их взаимосвязей);

  • описание структур данных для представления морфологической или синтаксической информации;

  • описание программного интерфейса соответствующего компонента с примерами взаимодействия.

  1. Дополнительные сведения из теории компьютерной лингвистики.

Компьютерная лингвистика изучает различные аспекты (теоретические, алгоритмические, программистские), связанные с реализацией всевозможных систем, обрабатывающих какие либо высказывания на ЕЯ (ЕЯ-систем).

Можно выделить следующие основные классы ЕЯ-систем.

Интеллектуальные вопрос-ответные системы. При разработке этих систем основное внимание уделяется развитию моделей и методов, позволяющих осуществлять перевод высказываний на ЕЯ, относящихся к узким и заранее фиксированным проблемным областям, в формальное представление, интерпретацию этих высказываний и генерацию ответных высказываний на ЕЯ по заранее известным, фиксированным правилам.

Системы общения с базами данных. Основная задача таких систем заключается в выполнении перевода запросов неподготовленных конечных пользователей базы данных с ЕЯ на формальный язык запросов к базе данных.

Диалоговые системы решения задач. Эти системы берут на себя не только функции доступа к базе данных, но и функции интеллектуального монитора, обеспечивающего решение заранее определенных классов задач (например, планирование путешествий, составление контрактов). Основное направление использования этих ЕЯ-систем — реализация естественноязы­кового общения с экспертными системами.

Системы обработки связных текстов. Эти системы занимаются обработкой текстовой информации и речи. Объем и разнообразие такой информации возрастает с каждым днем. Развитие и совершенствование систем автоматической обработки текстов на ЕЯ (АОТ-ситем) в настоящее время является наиболее актуальным и перспективным. Примеры областей применения АОТ-систем: обучение естественному языку, автоматический перевод, автокорректоры, распознавание речи, синтез речи, автоматическое реферирование, поисковые системы.

Практически любые ЕЯ-системы в той или иной форме имеют и используют морфологический компонент ЛП, некоторые из них так или иначе используют и синтаксический компонент ЛП. Наиболее развитые и сложные ЕЯ-системы имеют в своем составе также семантический и прагматический компоненты и анализируют не только отдельные предложения, но и входной текст в целом.