Интеллектуальные диалоговые системы / 1-20 изнанка
.doc
Формальная постановка задачи создания ИДС. Обобщенная схема ИДС. Задача организации общения (диалога) сводится к построению некоего отображения 1) отображение : вх вых вх – мн‑во входных текстов подъязыка обслуживающего конкретную проблемную область (подъязык – язык группы людей, общающихся в конкретной проб. области) вых – мн‑во команд доступа к БД(в случае общения с БД) или мн‑во вызовов прикладных программных модулей (если речь идет о диалоговом решении задач в ЭС или расчетных системах).. 2) Процесс понимания (обработки) вх.текста - это построение совокупности трех отображений *: *j j (анализ). Переход от знака к его денотату.<тому, что наблюдается, экст. концепт-смысл>. **: j **j (семантич. интерпр.) трансляция в термины ЯПЗ данной с-мы. От денотата - к концепту ***: **j i (прагматическая интерпретация) трансляция в реакцию, вид которой определяется целями ИДС. Обобщенная схема ИДС: 3 компоненты: диалоговая комп. (ведение диалога, формирование или обработка перехватов инициативы), комп. понимания высказываний (анализ высказываний, интерпретация высказываний), комп. генерации высказываний (генерация смысла высказываний, синтез высказываний). (1 <-> 2 и 1<->3 на схеме) Задача ведения диалога состоит в том, чтобы обеспечивать целесообразные действия с-мы на текущем шаге диалога. Формирование перехв.инициативы. происходит в тех случаях, когда с-ма определяет, что текущая ситуация не соотв. ситуации, предусм. структурой диалога. Понимание выск. – выделения смысла входного выск. и выражение его на внутр. языке с-мы.Делится на 2 этапа: анализ(выделение сущностей, упомянутых в выск.) и интерпретацию(отображение входного выск. на знания с-мы). Генерация выск. : ген. смысла (определение смысла во внутр.представлении) и синтез высказывания (преобр.смысла в высказывание на ЕЯ). 4
|
Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО; G – синтаксич компон, опред способ порождения правильных конструкций подъязыка; S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка. [P] – прагматический компонент (опционально) Программное средство реализации Lm называется лингвистическим процессором (ЕЯ-проц.) Пример G: сколько каменного угля перевезено железнодорожным транспортом в 20010 году? Построим компонент G для этого подъязыка. 1. Выделяется предикат: перевезено 2. Именная группа первого типа (ИГ1): каменного угля 3.ИГ1: железнодорожным транспортом 4.ИГ2: в 2010 г. 5.Вопросительное слово (ВС): сколько Определяются все допустимые комбинации именных групп в рамках конкретного предложения.Варианты описываются в грамматике с использованием БНФ. <предложение> ::= <ВС> <ИГ1> <П> <ИГ1> <ИГ2> | <ВС> <ИГ2> <П> {<ИГ1>} | … Если в подъязыке несколько типов предложений, то все варианты также перечисляются <G> :: = <предложение типа сообщение> | <предложение типа вопрос> | <… типа команда> ИГ оформляются след. образом: <ИГ1> ::= <прил.> <сущ>; <ИГ2> ::= <предлог><число><сущ.>. И конкретные образцы заносятся в словарь: ИГ1: железнодорожным транспортом … и.т.д.
2 |
Словарь – совокупность индивид знаний о языке.Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход).Но большинство русских слов имеет множество словоформ, следовательно можно хранить одну лишь основу слова (процедурный подход).Структура словаря: заглавная зона (хранит основу слова),морфологическая зона (часть речи,род,одушевленность…),синтактико-семантическая зона(лексические функции слова (например время, транспорт, физич.объект) и МУ).МУ-особая зона словарной статьи, в которую помещены знания о конкретной лексеме.Число и содержание мест МУ зависят от 1.числа и х-ра актантов ситуации, обозначаемой словом (семантическая валентность) 2.числа и х-ра подлежащего и дополнений, зависящих от данного слова и реально наблюдаемых в тексте(синтаксич.валентность).Семантич. валентности: агент – одушевл.возбудитель действия, контрагент, объект (действия), адресат,инструмент,результат… max вал.=6, как у командировать: кто, кого, куда, на сколько, зачем, когда. Морфологический анализ – обработка словоформ вне связи с контекстом, где словоформа – отрезок текста между пробелами (, - словоформа!).Функциями МА являются идентификация каждой текущей словоформы и приписывание ей морфологической информации.Этапы МА: 1.Поиск в словаре готовых форм.В русском яз. есть неизменяемые слова (ножницы).Для них МА не требуется. 2.Выделение основы. Последовательая проверка возможностей вложения в анализируемую словоформу справа налево окночаний и суффиксов.Сложность – в различении основ с чередующимися буквами (бег-бежать). 3.Поиск в словаре основ. Проблема – омонимия: разные по значению, но одинаковые по написанию словоформы. 4.Обработка словосочетаний.Склеивание отдельных словоформ, отделенных пробелами но рассматриваемых на уровне семантики как единое целое. «будем строить» заменяется на «построить». 8 |
Задача синтаксич. анализа заключается в том, чтобы, используя морфологическую информацию о словоформах и сведения из словаря, построить синтаксическую структуру предложения (входного высказывания).Синтаксическая структура отражает связи между отдельными словами предложения. Для ее описания используются деревья зависимостей. Пусть x – произвольная непустая цепочка словоформ, X –мн-во точек x, т. е. вхождений словоформ в цепочку. Произвольное бинарное отношение на X, при котором граф <, X> является деревом, называют отношением зависимости (подчинения). Само дерево <, X> является деревом зависимости для x. Для рус.яз. нет универс. алгоритмов СИА из-за его сложности, однако существуют некот.общие подходы. (на примере СИА с-мы ПОЭТ) 1.Устанавливаются предикативные [между подлежащим и сказуемым], комплетивные [при которых зависимый компонент словосочетания является необходимым добавлением, без которого господствующее слово не обладает достаточной информативностью], обстоятельственные синтаксические отношения.Выделяются словоформы, не входящие в обороты.Это основной уровень предложения. 2.Среди этих словоформ устанавливаются предикаты, т.е. словоформы имеющие модель управления 3.Для каждого предиката из синтаксической зоны МУ выделяются соответствующие ему групповые, индивидуальные и ядерные МУ. 4. Для каждой индив МУ опр-ся список кандидатов, кот удовл треб МУ в падеже, семан категориях, части речи.5.Инфа о найденных отношениях запоминается.6.С пом отсеивающих фильтров устраняются все словоформы, кот не могут быть слугами для предиката и осуществляют формирование матрицы кандидатов для каждого столбца каждой индив МУ.7.устанав-ся обстоятельс и определительные синтаксич.отношения.8.После обработки словоформ основного уровня - аналогично обр. сл. более глуб уровней.9.Результат – на вход семантического унализа (СЕА), в виде дерева разбора. Пример реализации этапа СИА:
Сколько камен(ого) угл(я) перевезен(о) жел..жн(ым) транспорт(ом) в 2010 год(у)? 6 |
<схема> текст→[морфологический анализ] →[синтаксич.ан] →[семантич.анализ] →[семантич.интерпретация] →[прагматич.интерпр.] <первые 3[] связаны с [база лингвистических знаний (словарь)] и последние 3[] с [база проблемных (понятийных) знаний]> Лингвистическая модель входного подъязыка: компонент G. Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО; G – синтаксич компон, опред способ порождения правильных конструкций подъязыка; S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка. [P] – прагматический компонент (опционально) Программное средство реализации Lm называется лингвистическим процессором (ЕЯ-проц.) Процесс понимания (обработки) вх.текста - это построение совокупности трех отображений *: *j j (анализ). Переход от знака к его денотату. **: j **j (семантич. интерпр.) трансляция в термины ЯПЗ данной с-мы. От денотата - к концепту ***: **j i (прагматическая интерпретация) трансляция в реакцию, вид которой определяется целями ИДС.
12 |
Уровни: дискурс(предложения, находящиеся друг с другом в смысловой связи), предложение, словосочетание, слово, морфема. Треугольник Фреге: Между знаками языка и их интерпретациями сущ тринарная связь, образов 2 типами интерпретаций знака: экстенсиональной и интенсиональной. Знаку S соответствуют денотат <референт> D (то, что наблюдается в реальном тексте с учетом контекста) и десигнат <концепт> C (смысл знака на интенсиональном уровне). + Связь донатата сконцептом существует объективно в отрыве от знака. S→D – отображение реального мира в заисимости от конкретного концепта <морфологический анализ?>.D→C – отображение значения знака в форматы некоторого ЯПЗ, использующегося для построения подели ПрО. Аномальные св-ва вершин треугольника: 1.омонимия – знаку S соотв. несколько С: синтаксические на уровне слова (лук) или фразы (дал прикурить) и морфологические («стол» имеет одну форму в вин. и род.падежах); синонимия(вода Н20) –один D имеет разные S; пресуппозиция – внеречевые условия речевых актов, т.е. не вся информация явно указ. в тексте (закройте дверь – значит дверь есть); анафорические ссылки (та, тот)– часть сущностей в тексте заменяют указательные местоимения, эллипсис – пропуски в тексте, недосказанность (я знаю язык, и. ты тоже). Развитием треугольника Фреге является понятие знаковой системы ZnS. Четверка вида <S, U, K, I> S – мн‑во знаков (например, слов - словарь) конкретного подъязыка, U – универсум, мн‑во денотатов К – система знаний (мн‑во понятий, в которых опис-ся концепты и их взаимоот-я), I – мн‑во интерпретаций, соотносящих знаку его денотат или концепт. 10 |
ЕЯ – это язык, который не требует для своего понимания (изучения) никаких правил и инструкций. Подъязык – это язык некоторой группы людей, общающихся в конкретной ПрО с конкретными целями. Язык расслаивается на малые языковые подсистемы – подъязыки. Из всех подъязыков наиб важным (приемлемым) языком человеко-машинного общения (взаимодействия) является деловая проза. Деловая проза – языковой носитель отношений человека в сфере производства. Это ЕЯ, ограниченный по семантике – лишенный ораторских, эмоциональных и других приемов. Относительная полнота. Подъязык, обслуживающий некоторую ПрО, обладает достаточным набором языковых средств для обознач любого факта из этой области. Замкнутость.При дополнении к обозримой выборке текстов подъязыка других текстов того же подъяз. не происходит пополнения словаря и грамматики. Конечность. Подъязык имеет конечный и ограниченный словарь. Формальная ограниченность В подъязыке ограничен набор грамматических средств и конструкций из общеязыкового арсенала. Устойчивость Для понимания входных текстов подъязыка несущественны поверхностно‑синтаксич различия текстов с тождественным смыслом.
16 |
Язык – это находящаяся в распоряжении того или иного коллектива с-ма элементов – единиц разных ярусов (слов, значащих частей слов и т. д.) + система правил функ-я этих ед. С-му единиц называют инвентарем языка, а с-му правил их функц-я, т. е. правил генерации и понимания осмыслен высказ – грамматикой этого языка. ЕЯ – это язык, кот не требует для своего понимания никаких правил и инструкций. Общение – процесс достижения его участниками определенных согласованных целей путем обмена связанными высказываниями, выраженными, выраженными в языке, о некотором реальном/гипотетическом мире (проблем обл). Высказывания участников общения образуют связный текст (дискурс), имеющий сложную структуру. (это 2 или более предл, находя друг с другом в смысловой связи, поддерживаемой различн видами лингв согласований (видовремен, временными, стилистическими и т. д.). Подъязык – это язык некоторой группы людей, общающихся в конкретной ПрО с конкрет. целями. Язык расслаивается на малые языковые подсистемы– подъязыки. Расслоение языка происходит по социальным, профессиональным, географическим и лругим. признакам.
Лингвистическая модель входного подъязыка: компонент G. Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО; G – синтаксич компон, опред способ порождения правильных конструкций подъязыка; S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка. [P] – прагматический компонент (опционально) Программное средство реализации Lm называется лингвистическим процессором (ЕЯ-проц.) 14 |
<Словарь – совокупность индивид. знаний о языке.Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход).Если лексика богатая и словообразов.механизмы ярко выражены, используется процедурный подход: хранятся основы.> Модель управления – особая зона словарной статьи, в которую помещена синтаксическая и семантическая информация (знания) о конкретной лексеме. Число и содержание мест МУ зависит от 1.Числа и характера актантов ситуации, обозначенной данным словом (семантической валентности) 2.Числа и характера подлежащего и дополнений, зависящих от данного слова (синтаксическая валентность) Семантич. валентность представляет собой синоним глубинного падежа в англ.языке. Примеры глубинных падежей агент(A) – одушевл.возбудитель действия, контрагент (K) – сила, против которой направлено действие, объект (О)- вещь, явл.объектом действия, адресат (D) – лицо, в пользу или во вред которому совершается действие; инструмент (I) – неодушевленный предмет или сила, составляющая причину действия или состояния;результат (R)- вещь, которая возникает в результате действия… МУ (или несколько моделей в случае омонимии) могут иметь следующие части речи: глаголы, краткие прилагательные, причастия, деепричастия, отглаг. сущ, некоторые предлоги. Остальные части речи не имеют МУ. В словаре слова, имеющие и не имеющие МУ, описываются различным образом. max валентность для глаголов рус.яз.=6, как у командировать: кто, кого, куда, на сколько, зачем, когда.
20 |
Словарь – совокупность индивид. знаний о языке.Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход).Если лексика богатая и словообразов.механизмы ярко выражены, используется процедурный подход: хранятся основы. Наиболее важные виды знаний: 1.Синтаксические отношения (СИО).В русском яз. их 3-40 (предикативные [между подлежащим и сказуемым], комплетивные [при которых зависимый компонент словосочетания является необходимым добавлением, без которого господствующее слово не обладает достаточной информативностью], обстоятельственные, определительные, количественные и.т.д.) 2.Лексические функции.Показывают индивидуальную лексич.сочетаемость отдельных слов. (синонимия (агрессия=нападение), конверсия Conv(пугать 2,1) = (бояться 1,2), дериваты Der(вышивать) = (вышивка)) 3.Модель управления – особая зона словарной статьи, в которую помещена синтаксическая и семантическая информация (знания) о конкретной лексеме. Число и содержание мест МУ зависит от 1.Числа и характера актантов ситуации, обозначенной данным словом (семантической валентности) 2.Числа и характера подлежащего и дополнений, зависящих от данного слова (синтаксическая валентность) Семантич. валентности: агент – одушевл.возбудитель действия, контрагент, объект (действия), адресат,инструмент,результат… МУ (или несколько моделей в случае омонимии) могут иметь следующие части речи: глаголы, краткие прилагательные, причастия, деепричастия, отглаг. сущ, некоторые предлоги. Остальные части речи не имеют МУ. В словаре слова, имеющие и не имеющие МУ, описываются различным образом. max валентность для глаголов рус.яз.=6, как у командировать: кто, кого, куда, на сколько, зачем, когда.
18 |