Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
33
Добавлен:
10.05.2014
Размер:
83.46 Кб
Скачать

Синтаксический анализ текста

Задача СИА: используя морфологич. инф. о словоформах, получ. на этапе морф. анализа, и сведений из словаря построить семантич структуру вх. предложения. Синт структура отраж синт связи между словами в предлож.

Дерево зависимостей: пусть х – непустая произвольная цепочка, Х – мн-во вхождений словоформ в цепочку х. Тогда произвол бинарное отношение  на Х, при котором граф <Х,> явл. деревом назыв. отношением зависимости на Х, а само дерево – деревом завис.

Общий алгоритм синтаксич анализа для подъязыков деловой прозы: 1. Процедура устан. синт. отнош. В первую очередь опр-ся предикативные (между сказ. и подлеж.), комплетивные (между сказ. и дополн.) и обстоятельственные (между сказ. и обст.) синт. отнош. Для этого в предлож выдел-ся словоформы, не вход. в придаточное предложение и обороты. 2. Среди словоформ основ уровня выдел предикаты (ими м.б.: глаголы, краткие прилаг, отглагольные сущ, дееприч, прич и нек предлоги). 3. Для каждого предик выд и посл-но обраб соотв ему групповые, ядерные и индивид. МУ (МУ -–особая зона слов статьи, в котор помещена синт и семантич инф о конкрет слове). 4. Для каждой индивид МУ выдел-ся список кандидатов, которые удовл. треб. МУ в падеже, части речи и др. 5. Инф-ция о предикатах запоминается. 6. С пом. отсеив. фильтров устр. словоформы (не игр. роль слуг), осущ формир. матрицы кандидатов для каждого столбца каждой инд. МУ. 7. Устанавливаются локальные обстоятельств. и определит. синт. отношения. 8. Обрабат словоформы более глубоких уровней. 9. Управление передается СЕА, на вход к-рого поступает дерево разбора.

70

Морфологический анализ текста

МА – обработка словоформы вне связи с контекстом. Ф-ция МА – идентификация словоформы и приписывание ей комплекса морфологической инф-ции, служащей в дальнейшем входной информацией для следующего этапа синтаксического анализа.

Алгоритм морфологического анализа:

1. Поиск в словаре готовых словоформ. Проверить, не принадлежит ли текущая словоформа к неизменяемым. Если словоформа найдена, из словаря готовых словоформ переписывается морфологическая информация, морфологический анализ в этом случае не нужен.

2. Выделение основы. Последовательные проверки возможности вложения в анализируемую словоформу справа налево окончаний и суффиксов. Производится отсечение аффиксов, в результате словоформе сопоставляется одна или несколько гипотетических основ (ГО).

3. Поиск в словаре основ. В случае нахождения гипотетических основ в словаре основ и совпадении части речи ГО с частью речи основы ГО и морфологическая информация признаются правильными, иначе ГО ошибочна. Проблемы: омонимия, чередование согласных в основе.

4. Обработка словосочетаний. Обрабатываются обработка жестко закрепленных последовательностей словоформ, рассматриваемых на уровне семантики как единое целое. "Склеивание" отдельных словоформ: "будем строить" – "построить".

68

Структура словаря с примерами

Словарь – совокупность индивид. знаний о языке. Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход). Но большинство русских слов имеет множество словоформ, следовательно можно хранить одну лишь основу слова (процедурный подход).

Структура словаря: заглавная зона (хранит основу слова), морфологическая зона (часть речи, род, одушевленность…), синтактико-семантическая зона (лексические функции слова (например время, транспорт, физич.объект) и МУ. МУ-особая зона словарной статьи, в которую помещены знания о конкретной лексеме. Число и содержание мест МУ зависят от 1.числа и х-ра актантов ситуации, обозначаемой словом (семантическая валентность) 2.числа и х-ра подлежащего и дополнений, зависящих от данного слова и реально наблюдаемых в тексте(синтаксич.валентность).

Пример процедурного способа организации словарей (система ПОЭТ)

Сколько каменного угля перевезено железнодорожным транспортом в 2003 году?

Загл. зона (основа слова)

Морфологическая зона

Синт.-сем. зона

часть речи

число

род

одуш/неодуш

А/П

в

предл

год

сущ

любое

м

неодуш

время

ж/д

прил

перевез

глагол

любой

ин. МУ ЛФ

сколько

числ кол

74

Семантический анализ текста

Задача СЕА: преобразование синт. структуры предложения, полученной на этапе СИА, в термины ЯПЗ данной системы.

СЕА слов с МУ: всегда можно указать ссылку на эл-ты семантич. сети, обработка зависит от МУ. Слова с МУ делятся на группы: 1) пред. действия (отраж ситуацию в реальном мире); 2) функциональные (операторы над пред.); 3) пустые пред. (глаголы-связки (быть), пустые глаголы (осуществить, произвести) и фазовые глаголы (начинать, заканчивать), модальные глаголы (мочь, должен, хотеть).

СЕА слов без МУ: семантика данных ИГ (слов без МУ) определяется в зависимости от контекста. ПОЭТ: в сем. сеть добавляются новые вершины: Транспорт(З)вид 1(Э)жд.

Обобщенный алгоритм СЕА: 1. Классиф. вх. слов. на группы с учетом способа предст. инф. (деклар./процедур.), организации словарн. инф. (предик, понятия, хар-ки и т.д.) 2. Перенос предик, комплетивных и обстоят. отнош. на слово, явл. предикатом действия. 3. Выбор канонич. формы сл. с МУ. 4. Замена СИО, вх. в МУ на сем. отнош. и проверка замены по сем. сети на правильность. 5. Обработка обстоят. СИО как вспомогат. инф-ция к пред. действия. Инф-ция оформляется в виде спец. таблиц (напр., табл. времен). 6. Заполение всех актантов МУ в соотв. предложении словами вх. предложения, т.е. понятиями. 7. При наличии в запросе парам., треб. обр. к БД, форм. запросы к БД. 8. После обработки слов с МУ синт. стр. вх. предлож. разбивается на ряд деревьев, сост. именную группу, и далее обработка слов без МУ.

72

Структура диалога: глобальная, тематическая, локальная

1.Глобальная структура.Действия ИДС задаются в виде посл-ти этапов, определяемых в зависимости от класса решаемых задач. Напр., в случае общения с ЭС: инструктаж; постановку задачи; решение зад., объяснения в ходе решения; объяснения после решения; определ. причин неудач и приобретение новых знаний.

2.Тематическая структура. Представляется в виде сценария, в рамках которого определяются: 1) структура задачи, т.е разбиение задачи на упорядоченное множество подзадач; 2) распределение подзадач по участникам общения; 3) языковые средства, используемые при обращениях к пользователю. 3. Локальная структура. Шаг диалога состоит из действия (высказывание акт. участника) и реакции (пассивного). Перехват инициативы возникает когда пассивный участник вместо преследования цели, предложенной активным уч., предлагает преследовать иные цели.

Схемы диалога:

1. Д. ведет пользователь. Иниц. (кр. сообщ. об ошиб.) у польз., а с-ма реагирует на его требования. Ф-ции ДК практич. вырождены. 2. Ведет с-ма. Инициатива принадлежит с-ме. Она ведет диалог в соответствии с имеющимися у нее представлениями о структуре диалога (т.е. о разбиении задач на подзадачи и о том, кто из участников, когда и какую из них решает).

78

Представление лингвистических знаний (основные понятия)

Подходы к хранению словоформ: 1. Декларативный (хранятся все словоформы). 2. Процедурный (хранятся осн., нужно выделение осн. и мощные алгоритмы словообраз.).

Зн. о языке (лингвистич. зн.): 1. Лексические (слова, способы их измен. и образования); 2. Синтаксич. (правила постр. грамматич. правильных текстов). 3. Семантич. (соотн. слов и яз. констр. с объектами и понятиями ПрО).

Наиболее важные виды синт. и сем. знаний: 1. Синт. отношения (СИО). В русск. языке – 30-40: предикативные, комплетивные (между предик. и дополнением) – 5 шт., обстоятельств., определит., колич., вспомогат. и др. 2. Лексические ф-ции – инф. о лексич. сочетаемости отд. словоф. Напр. синонимия: syn(красивый) = (симпатичный); конверсия: conv(пугать 1,2) = (бояться 2,1); дериваты: der(вышивать) = (вышивка). 3. МУ – особ. зона словарной статьи, в ко-рую помещена синт. и сем. инф-ция о конкр. лексеме. Число и содерж. мест МУ завис. от: 1) числа и хар-ра акт. ситуации, обознач. данным словом (семантич валентность слова); 2) числа и хар-ра дополнений, завис. от данного слова и реально наблюд. в тексте (синтаксич валентность слова). МУ = сем. вал. + синт. вал.. МУ: индивид., групп., ядерная. Актанты ситуации – опред. лекс.-граф. анализом ситуации. Примеры глубинных падежей (семантич вал.): колотить – 4-х валентный предикат. A, B, C, D – актанты. "И. колотит П. кулаком по спине".

А(агент)

В(адресат/тема)

С(инструмент)

D(пораж. часть объекта)

синт.

комп.

1. Кто колотит? Sим

1. Sвин (кого колотят?). 2. по + Sдат. 3. в + Sвин

Sтв

По, Sдат

сем. комп

1. одуш

1. одуш. предм или физ. об. 2. Неоднор. предм. (часть или большой предмет) 3. преграда.

Физич объект

Часть тела объкта В.

76

Модель управления (МУ): основные понятия, примеры, задание МУ в словаре

МУ – особая зона словарной статьи, в ко-рую помещена синт. и сем. инф-ция о конкр. лексеме. Число и содержание мест МУ завис. от: 1) числа и хар-ра актантов ситуации, обознач. данным словом (семантич валентность слова); 2) числа и хар-ра дополнений, завис. от данного слова и реально наблюд. в тексте (синтаксич валентность слова). МУ = сем. валентность + синт. валентность. МУ: индивидуальная, групповая, ядерная. Актанты ситуации – опред. лексико-графич. анализом ситуации. Примеры глубинных падежей (семантич вал): колотить – 4-х валентный предикат. A, B, C, D – актанты. "Иван колотит Петра кулаком по спине".

А(агент)

В(адресат/тема)

С(инструмент)

D(пораж. часть объекта)

синт.

комп.

1. Кто колотит? Sим

1. Sвин (кого колотят?).

2. по + Sдат. 3. в + Sвин

Sтв

По, Sдат

сем. комп

1. одуш

1. одуш. предм или физ. об. 2. Неоднор. предм. (часть или большой предмет)

3. преграда.

Физич объект

Часть тела объкта В.

82

Уровни изучения текста: основные понятия, треугольник Фреге

Уровни: дискурс(предложения, находящиеся друг с другом в смысловой связи), предложение, словосочетание, слово, морфема.

Треугольник Фреге: Между знаками языка и их интерпретациями сущ тринарная связь, образов 2 типами интерпретаций знака: экстенсиональной и интенсиональной. Знаку S соответствуют денотат <референт> D (то, что наблюдается в реальном тексте с учетом контекста) и десигнат <концепт> C (смысл знака на интенсиональном уровне). + Связь донатата сконцептом существует объективно в отрыве от знака. S→D – отображение реального мира в заисимости от конкретного концепта <морфологический анализ?>.D→C – отображение значения знака в форматы некоторого ЯПЗ, использующегося для построения подели ПрО.

Аномальные св-ва вершин треугольника: 1.омонимия – знаку S соотв. несколько С: синтаксические на уровне слова (лук) или фразы (дал прикурить) и морфологические («стол» имеет одну форму в вин. и род.падежах); синонимия(вода Н20) –один D имеет разные S; пресуппозиция – внеречевые условия речевых актов, т.е. не вся информация явно указ. в тексте (закройте дверь – значит дверь есть); анафорические ссылки (та, тот)– часть сущностей в тексте заменяют указательные местоимения, эллипсис – пропуски в тексте, недосказанность (я знаю язык, и. ты тоже).

Развитием треугольника Фреге является понятие знаковой системы ZnS. Четверка вида <S, U, K, I> S – мн‑во знаков (например, слов - словарь) конкретного подъязыка, U – универсум, мн‑во денотатов К – система знаний (мн‑во понятий, в которых опис-ся концепты и их взаимоот-я), I – мн‑во интерпретаций, соотносящих знаку его денотат или концепт. 80

Лингвистическая модель входного подъязыка и средства её реализации

Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где

V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО;

G – синтаксич компон, опред способ порождения правильных конструкций подъязыка;

S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка.

[P] – прагматический компонент (опционально)

Программное средство реализации Lm называется лингвистическим процессором, фактически это компонент понимания в архитектуре любой ИДС.

Текст1) морфологич. ан.  2) СИА  3) СЕА  4) сем. интерпр.  5) прагм. интерпр.

6) база лингв. зн.(словарь), 7) база пробл. (понятийных) зн. Рис.: 1, 2, 3 <->6; 3, 4, 5 <-> 7.

Анализ: *: *jj (знакденотат). Сем. интерпрет.: **: j**j (денотатконцепт). Прагм. интерпр.: **: **ji, где i – реакция (определяется целями ИДС).

Лингвистический процессор переводит ЕЯ-высказывания, вводимые пользователем, на язык внутреннего представления.

На примере системы АИСТ:

1. [Структурный анализ [Определение типа действия] [Выделение компонентов]].

2. [Формирование выражения на языке внутреннего представления].

3. [Обработка компонентов [Определение вида обработки] [Автоматическое индексирование: контролируемое (КЛ-режим), неконтролируемое (НЛ), смешанное (СМ)] [Редактирование] [Нормализация]]. Схема: 12; 1<-> 3.

86

Формальная постановка задачи создания ИДС

Задача организации общения (диалога) сводится к построению некоего отображения 

1) отображение : вх  вых

вх – мн‑во входных текстов подъязыка обслуживающего конкретную проблемную область (подъязык – язык группы людей, общающихся в конкретной проб. области)

вых – мн‑во команд доступа к БД(в случае общения с БД) или мн‑во вызовов прикладных программных модулей (если речь идет о диалоговом решении задач в ЭС или расчетных системах)..

2) Процесс понимания (обработки) вх.текста - это построение совокупности трех отображений

*: *j  j (анализ). Переход от знака к его денотату.

**: j  **j (семантич. интерпр.) трансляция в термины ЯПЗ данной с-мы. От денотата - к концепту

***: **j  i (прагматическая интерпретация) трансляция в реакцию, вид которой определяется целями ИДС.

Обобщенная схема ИДС: 3 компоненты: диалоговая комп. (ведение диалога, формирование или обработка перехватов инициативы), комп. понимания высказываний (анализ высказываний, интерпретация высказываний), комп. генерации высказываний (генерация смысла высказываний, синтез высказываний). (1 <-> 2 и 1<->3 на схеме)

84

Соседние файлы в папке Интеллектуальные диалоговые системы