Интеллектуальные диалоговые системы / 67-85 изнанка
.doc
Синтаксический анализ текста Задача СИА: используя морфологич. инф. о словоформах, получ. на этапе морф. анализа, и сведений из словаря построить семантич структуру вх. предложения. Синт структура отраж синт связи между словами в предлож. Дерево зависимостей: пусть х – непустая произвольная цепочка, Х – мн-во вхождений словоформ в цепочку х. Тогда произвол бинарное отношение на Х, при котором граф <Х,> явл. деревом назыв. отношением зависимости на Х, а само дерево – деревом завис. Общий алгоритм синтаксич анализа для подъязыков деловой прозы: 1. Процедура устан. синт. отнош. В первую очередь опр-ся предикативные (между сказ. и подлеж.), комплетивные (между сказ. и дополн.) и обстоятельственные (между сказ. и обст.) синт. отнош. Для этого в предлож выдел-ся словоформы, не вход. в придаточное предложение и обороты. 2. Среди словоформ основ уровня выдел предикаты (ими м.б.: глаголы, краткие прилаг, отглагольные сущ, дееприч, прич и нек предлоги). 3. Для каждого предик выд и посл-но обраб соотв ему групповые, ядерные и индивид. МУ (МУ -–особая зона слов статьи, в котор помещена синт и семантич инф о конкрет слове). 4. Для каждой индивид МУ выдел-ся список кандидатов, которые удовл. треб. МУ в падеже, части речи и др. 5. Инф-ция о предикатах запоминается. 6. С пом. отсеив. фильтров устр. словоформы (не игр. роль слуг), осущ формир. матрицы кандидатов для каждого столбца каждой инд. МУ. 7. Устанавливаются локальные обстоятельств. и определит. синт. отношения. 8. Обрабат словоформы более глубоких уровней. 9. Управление передается СЕА, на вход к-рого поступает дерево разбора. 70
|
Морфологический анализ текста МА – обработка словоформы вне связи с контекстом. Ф-ция МА – идентификация словоформы и приписывание ей комплекса морфологической инф-ции, служащей в дальнейшем входной информацией для следующего этапа синтаксического анализа. Алгоритм морфологического анализа: 1. Поиск в словаре готовых словоформ. Проверить, не принадлежит ли текущая словоформа к неизменяемым. Если словоформа найдена, из словаря готовых словоформ переписывается морфологическая информация, морфологический анализ в этом случае не нужен. 2. Выделение основы. Последовательные проверки возможности вложения в анализируемую словоформу справа налево окончаний и суффиксов. Производится отсечение аффиксов, в результате словоформе сопоставляется одна или несколько гипотетических основ (ГО). 3. Поиск в словаре основ. В случае нахождения гипотетических основ в словаре основ и совпадении части речи ГО с частью речи основы ГО и морфологическая информация признаются правильными, иначе ГО ошибочна. Проблемы: омонимия, чередование согласных в основе. 4. Обработка словосочетаний. Обрабатываются обработка жестко закрепленных последовательностей словоформ, рассматриваемых на уровне семантики как единое целое. "Склеивание" отдельных словоформ: "будем строить" – "построить". 68 |
|||||||||||||||||||||||||||||||||||||||||||||||
Структура словаря с примерами Словарь – совокупность индивид. знаний о языке. Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход). Но большинство русских слов имеет множество словоформ, следовательно можно хранить одну лишь основу слова (процедурный подход). Структура словаря: заглавная зона (хранит основу слова), морфологическая зона (часть речи, род, одушевленность…), синтактико-семантическая зона (лексические функции слова (например время, транспорт, физич.объект) и МУ. МУ-особая зона словарной статьи, в которую помещены знания о конкретной лексеме. Число и содержание мест МУ зависят от 1.числа и х-ра актантов ситуации, обозначаемой словом (семантическая валентность) 2.числа и х-ра подлежащего и дополнений, зависящих от данного слова и реально наблюдаемых в тексте(синтаксич.валентность). Пример процедурного способа организации словарей (система ПОЭТ) Сколько каменного угля перевезено железнодорожным транспортом в 2003 году?
74 |
Семантический анализ текста Задача СЕА: преобразование синт. структуры предложения, полученной на этапе СИА, в термины ЯПЗ данной системы. СЕА слов с МУ: всегда можно указать ссылку на эл-ты семантич. сети, обработка зависит от МУ. Слова с МУ делятся на группы: 1) пред. действия (отраж ситуацию в реальном мире); 2) функциональные (операторы над пред.); 3) пустые пред. (глаголы-связки (быть), пустые глаголы (осуществить, произвести) и фазовые глаголы (начинать, заканчивать), модальные глаголы (мочь, должен, хотеть). СЕА слов без МУ: семантика данных ИГ (слов без МУ) определяется в зависимости от контекста. ПОЭТ: в сем. сеть добавляются новые вершины: Транспорт(З)вид 1(Э)жд. Обобщенный алгоритм СЕА: 1. Классиф. вх. слов. на группы с учетом способа предст. инф. (деклар./процедур.), организации словарн. инф. (предик, понятия, хар-ки и т.д.) 2. Перенос предик, комплетивных и обстоят. отнош. на слово, явл. предикатом действия. 3. Выбор канонич. формы сл. с МУ. 4. Замена СИО, вх. в МУ на сем. отнош. и проверка замены по сем. сети на правильность. 5. Обработка обстоят. СИО как вспомогат. инф-ция к пред. действия. Инф-ция оформляется в виде спец. таблиц (напр., табл. времен). 6. Заполение всех актантов МУ в соотв. предложении словами вх. предложения, т.е. понятиями. 7. При наличии в запросе парам., треб. обр. к БД, форм. запросы к БД. 8. После обработки слов с МУ синт. стр. вх. предлож. разбивается на ряд деревьев, сост. именную группу, и далее обработка слов без МУ.
72 |
|||||||||||||||||||||||||||||||||||||||||||||||
Структура диалога: глобальная, тематическая, локальная 1.Глобальная структура.Действия ИДС задаются в виде посл-ти этапов, определяемых в зависимости от класса решаемых задач. Напр., в случае общения с ЭС: инструктаж; постановку задачи; решение зад., объяснения в ходе решения; объяснения после решения; определ. причин неудач и приобретение новых знаний. 2.Тематическая структура. Представляется в виде сценария, в рамках которого определяются: 1) структура задачи, т.е разбиение задачи на упорядоченное множество подзадач; 2) распределение подзадач по участникам общения; 3) языковые средства, используемые при обращениях к пользователю. 3. Локальная структура. Шаг диалога состоит из действия (высказывание акт. участника) и реакции (пассивного). Перехват инициативы возникает когда пассивный участник вместо преследования цели, предложенной активным уч., предлагает преследовать иные цели. Схемы диалога: 1. Д. ведет пользователь. Иниц. (кр. сообщ. об ошиб.) у польз., а с-ма реагирует на его требования. Ф-ции ДК практич. вырождены. 2. Ведет с-ма. Инициатива принадлежит с-ме. Она ведет диалог в соответствии с имеющимися у нее представлениями о структуре диалога (т.е. о разбиении задач на подзадачи и о том, кто из участников, когда и какую из них решает).
78 |
Представление лингвистических знаний (основные понятия) Подходы к хранению словоформ: 1. Декларативный (хранятся все словоформы). 2. Процедурный (хранятся осн., нужно выделение осн. и мощные алгоритмы словообраз.). Зн. о языке (лингвистич. зн.): 1. Лексические (слова, способы их измен. и образования); 2. Синтаксич. (правила постр. грамматич. правильных текстов). 3. Семантич. (соотн. слов и яз. констр. с объектами и понятиями ПрО). Наиболее важные виды синт. и сем. знаний: 1. Синт. отношения (СИО). В русск. языке – 30-40: предикативные, комплетивные (между предик. и дополнением) – 5 шт., обстоятельств., определит., колич., вспомогат. и др. 2. Лексические ф-ции – инф. о лексич. сочетаемости отд. словоф. Напр. синонимия: syn(красивый) = (симпатичный); конверсия: conv(пугать 1,2) = (бояться 2,1); дериваты: der(вышивать) = (вышивка). 3. МУ – особ. зона словарной статьи, в ко-рую помещена синт. и сем. инф-ция о конкр. лексеме. Число и содерж. мест МУ завис. от: 1) числа и хар-ра акт. ситуации, обознач. данным словом (семантич валентность слова); 2) числа и хар-ра дополнений, завис. от данного слова и реально наблюд. в тексте (синтаксич валентность слова). МУ = сем. вал. + синт. вал.. МУ: индивид., групп., ядерная. Актанты ситуации – опред. лекс.-граф. анализом ситуации. Примеры глубинных падежей (семантич вал.): колотить – 4-х валентный предикат. A, B, C, D – актанты. "И. колотит П. кулаком по спине".
76 |
|||||||||||||||||||||||||||||||||||||||||||||||
Модель управления (МУ): основные понятия, примеры, задание МУ в словаре МУ – особая зона словарной статьи, в ко-рую помещена синт. и сем. инф-ция о конкр. лексеме. Число и содержание мест МУ завис. от: 1) числа и хар-ра актантов ситуации, обознач. данным словом (семантич валентность слова); 2) числа и хар-ра дополнений, завис. от данного слова и реально наблюд. в тексте (синтаксич валентность слова). МУ = сем. валентность + синт. валентность. МУ: индивидуальная, групповая, ядерная. Актанты ситуации – опред. лексико-графич. анализом ситуации. Примеры глубинных падежей (семантич вал): колотить – 4-х валентный предикат. A, B, C, D – актанты. "Иван колотит Петра кулаком по спине".
82 |
Уровни изучения текста: основные понятия, треугольник Фреге Уровни: дискурс(предложения, находящиеся друг с другом в смысловой связи), предложение, словосочетание, слово, морфема. Треугольник Фреге: Между знаками языка и их интерпретациями сущ тринарная связь, образов 2 типами интерпретаций знака: экстенсиональной и интенсиональной. Знаку S соответствуют денотат <референт> D (то, что наблюдается в реальном тексте с учетом контекста) и десигнат <концепт> C (смысл знака на интенсиональном уровне). + Связь донатата сконцептом существует объективно в отрыве от знака. S→D – отображение реального мира в заисимости от конкретного концепта <морфологический анализ?>.D→C – отображение значения знака в форматы некоторого ЯПЗ, использующегося для построения подели ПрО. Аномальные св-ва вершин треугольника: 1.омонимия – знаку S соотв. несколько С: синтаксические на уровне слова (лук) или фразы (дал прикурить) и морфологические («стол» имеет одну форму в вин. и род.падежах); синонимия(вода Н20) –один D имеет разные S; пресуппозиция – внеречевые условия речевых актов, т.е. не вся информация явно указ. в тексте (закройте дверь – значит дверь есть); анафорические ссылки (та, тот)– часть сущностей в тексте заменяют указательные местоимения, эллипсис – пропуски в тексте, недосказанность (я знаю язык, и. ты тоже). Развитием треугольника Фреге является понятие знаковой системы ZnS. Четверка вида <S, U, K, I> S – мн‑во знаков (например, слов - словарь) конкретного подъязыка, U – универсум, мн‑во денотатов К – система знаний (мн‑во понятий, в которых опис-ся концепты и их взаимоот-я), I – мн‑во интерпретаций, соотносящих знаку его денотат или концепт. 80 |
|||||||||||||||||||||||||||||||||||||||||||||||
Лингвистическая модель входного подъязыка и средства её реализации Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО; G – синтаксич компон, опред способ порождения правильных конструкций подъязыка; S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка. [P] – прагматический компонент (опционально) Программное средство реализации Lm называется лингвистическим процессором, фактически это компонент понимания в архитектуре любой ИДС. Текст1) морфологич. ан. 2) СИА 3) СЕА 4) сем. интерпр. 5) прагм. интерпр. 6) база лингв. зн.(словарь), 7) база пробл. (понятийных) зн. Рис.: 1, 2, 3 <->6; 3, 4, 5 <-> 7. Анализ: *: *jj (знакденотат). Сем. интерпрет.: **: j**j (денотатконцепт). Прагм. интерпр.: **: **ji, где i – реакция (определяется целями ИДС). Лингвистический процессор переводит ЕЯ-высказывания, вводимые пользователем, на язык внутреннего представления. На примере системы АИСТ: 1. [Структурный анализ [Определение типа действия] [Выделение компонентов]]. 2. [Формирование выражения на языке внутреннего представления]. 3. [Обработка компонентов [Определение вида обработки] [Автоматическое индексирование: контролируемое (КЛ-режим), неконтролируемое (НЛ), смешанное (СМ)] [Редактирование] [Нормализация]]. Схема: 12; 1<-> 3.
86 |
Формальная постановка задачи создания ИДС Задача организации общения (диалога) сводится к построению некоего отображения 1) отображение : вх вых вх – мн‑во входных текстов подъязыка обслуживающего конкретную проблемную область (подъязык – язык группы людей, общающихся в конкретной проб. области) вых – мн‑во команд доступа к БД(в случае общения с БД) или мн‑во вызовов прикладных программных модулей (если речь идет о диалоговом решении задач в ЭС или расчетных системах).. 2) Процесс понимания (обработки) вх.текста - это построение совокупности трех отображений *: *j j (анализ). Переход от знака к его денотату. **: j **j (семантич. интерпр.) трансляция в термины ЯПЗ данной с-мы. От денотата - к концепту ***: **j i (прагматическая интерпретация) трансляция в реакцию, вид которой определяется целями ИДС. Обобщенная схема ИДС: 3 компоненты: диалоговая комп. (ведение диалога, формирование или обработка перехватов инициативы), комп. понимания высказываний (анализ высказываний, интерпретация высказываний), комп. генерации высказываний (генерация смысла высказываний, синтез высказываний). (1 <-> 2 и 1<->3 на схеме)
84 |