Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лингвистический процессор естественного языка.doc
Скачиваний:
76
Добавлен:
02.05.2014
Размер:
342.02 Кб
Скачать

Московский государственный

университет им. М.В. Ломоносова

Факультет вычислительной математики и кибернетики

Волкова И.А.

Лингвистический процессор

естественного языка

Морфологический и синтаксический компоненты

Задание практикума для студентов 3-го курса ЧФ МГУ

(Методическое пособие)

2003

УДК 519.6+681.3.06

В данном методическом пособии описывается задание практикума на ЭВМ для студентов 3 курса Черноморского Филиала МГУ им. Ломоносова в поддержку основного курса “Языки программирования“. Приводятся подробные методические пояснения и рекомендации.

Рецензенты:

_______________

_______________

Волкова И.А. " Лингвистический процессор естественного языка. Морфологический и синтаксический компоненты. Задание практикума для студентов 3-го курса ЧФ МГУ (Методическое пособие)".

Издательский отдел факультета ВМиК МГУ

(лицензия __________ от _________), 2002.-39 с.

Печатается по решению Редакционно-Издательского Совета факультета вычислительной математики и кибернетики МГУ им. М.В.Ломоносова.

??? ISBN 5-89407-033-3  Издательский отдел факуль-

тета вычислительной математи-ки и кибернетики МГУ им. М.В.Ломоносова, 2002.

  1. Постановка задачи

В рамках задания практикума требуется реализовать упрощенные, модельные варианты морфологического компонента (включающего в себя морфологический анализатор и синтезатор) и синтаксического компонента (включающего в себя синтаксический анализатор, синтаксический синтезатор реализовывать не требуется) лингвистического процессора естественного языка (ЕЯ).

Упрощение морфологического компонента сводится к следующему:

  • во-первых (и это самое существенное упрощение), морфологическая база данных (словарь) содержит ограниченное (хотя и достаточно представительное) подмножество лексем ЕЯ, словарь не пополняется в процессе работы программы, и, если программе морфологического анализа или синтеза на вход подается лексема, не занесенная в морфологическую базу данных, то результатом ее работы должно быть лишь соответствующее сообщение, и не должно предприниматься никаких попыток обработать новую или введенную с ошибкой лексему;

  • во-вторых, морфологическая модель ЕЯ не учитывает все тонкости и все нерегулярные явления языка;

  • в-третьих, не учитывается информация об ударениях в словах.

Задача реализации требуемого морфологического компонента естественного языка разбивается на следующие подзадачи:

  1. Разработка морфологической модели выбранного ЕЯ.

  2. Создание морфологической базы данных соответствующего ЕЯ.

  3. Реализация программы морфологического анализа ЕЯ.

  4. Реализация программы морфологического синтеза ЕЯ.

  5. Реализация интерфейса пользователя с морфологическим компонентом лингвистического процессора ЕЯ.

Упрощение синтаксического компонента заключается в следующем:

  • во-первых, не рассматриваются сложные (сложносочиненные и сложноподчиненные) предложения естественного языка;

  • во-вторых, не учитываются вопросительные предложения;

  • в-третьих, не учитывается простые предложения

  • с синтаксическим эллипсисом;

  • с фразеологическими и идиоматическими сочетаниями;

  • с вводными словами и оборотами;

  • с обращениями;

  • с междометиями, с частицами, с числительными;

  • с однородными сказуемыми;

  • с оборотами с союзами «как», «чем», «словно» и др. (Данное предложение рассматривается как гипотеза. Такое решение удачнее, чем предыдущее.);

  • с подчинительными конструкциями с сочинительными союзами со значением присоединения, противопоставления, уступки, не образующие самостоятельных предложений (Дело движется, но медленно. Через две точки проходит прямая, и притом только одна.);

  • с пояснительными конструкциями с сочинительными союзами с предшествующей запятой (бегемот, или гиппопотам);

  • с цитатами и вставками на других языках;

  • с конструкциями с цифровой или какой-либо другой нумерацией пунктов;

  • со знаками препинания, отличными от запятой.

  • в-четвертых, синтаксическая модель естественного языка должна учитывать только синтаксически правильные (относительно принятой модели) предложения естественного языка; если на вход синтаксического анализатора подается предложение, не соответствующее принятой грамматике естественного языка, он только сообщает об этом факте, не пытаясь как-либо обработать данное предложение.

Задача реализации требуемого синтаксического компонента естественного языка разбивается на следующие подзадачи:

  1. Разработка и описание синтаксической модели выбранного ЕЯ.

  2. Описание синтаксиса определенного подмножества ЕЯ.

  3. Реализация программы синтаксического анализа ЕЯ.

  4. Реализация интерфейса пользователя с синтаксическим компонентом лингвистического процессора ЕЯ.