Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
39
Добавлен:
10.05.2014
Размер:
78.34 Кб
Скачать

Формальная постановка задачи создания ИДС. Обобщенная схема ИДС.

Задача организации общения (диалога) сводится к построению некоего отображения 

1) отображение : вх  вых

вх – мн‑во входных текстов подъязыка обслуживающего конкретную проблемную область (подъязык – язык группы людей, общающихся в конкретной проб. области)

вых – мн‑во команд доступа к БД(в случае общения с БД) или мн‑во вызовов прикладных программных модулей (если речь идет о диалоговом решении задач в ЭС или расчетных системах)..

2) Процесс понимания (обработки) вх.текста - это построение совокупности трех отображений

*: *j  j (анализ). Переход от знака к его денотату.<тому, что наблюдается, экст. концепт-смысл>.

**: j  **j (семантич. интерпр.) трансляция в термины ЯПЗ данной с-мы. От денотата - к концепту

***: **j  i (прагматическая интерпретация) трансляция в реакцию, вид которой определяется целями ИДС.

Обобщенная схема ИДС: 3 компоненты: диалоговая комп. (ведение диалога, формирование или обработка перехватов инициативы), комп. понимания высказываний (анализ высказываний, интерпретация высказываний), комп. генерации высказываний (генерация смысла высказываний, синтез высказываний). (1 <-> 2 и 1<->3 на схеме)

Задача ведения диалога состоит в том, чтобы обеспечивать целесообразные действия с-мы на текущем шаге диалога. Формирование перехв.инициативы. происходит в тех случаях, когда с-ма определяет, что текущая ситуация не соотв. ситуации, предусм. структурой диалога.

Понимание выск. – выделения смысла входного выск. и выражение его на внутр. языке с-мы.Делится на 2 этапа: анализ(выделение сущностей, упомянутых в выск.) и интерпретацию(отображение входного выск. на знания с-мы).

Генерация выск. : ген. смысла (определение смысла во внутр.представлении) и синтез высказывания (преобр.смысла в высказывание на ЕЯ).

4

Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где

V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО;

G – синтаксич компон, опред способ порождения правильных конструкций подъязыка;

S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка.

[P] – прагматический компонент (опционально)

Программное средство реализации Lm называется лингвистическим процессором (ЕЯ-проц.)

Пример G: сколько каменного угля перевезено железнодорожным транспортом в 20010 году?

Построим компонент G для этого подъязыка.

1. Выделяется предикат: перевезено

2. Именная группа первого типа (ИГ1): каменного угля

3.ИГ1: железнодорожным транспортом

4.ИГ2: в 2010 г.

5.Вопросительное слово (ВС): сколько

Определяются все допустимые комбинации именных групп в рамках конкретного предложения.Варианты описываются в грамматике с использованием БНФ.

<предложение> ::= <ВС> <ИГ1> <П> <ИГ1> <ИГ2> | <ВС> <ИГ2> <П> {<ИГ1>} | …

Если в подъязыке несколько типов предложений, то все варианты также перечисляются

<G> :: = <предложение типа сообщение> | <предложение типа вопрос> | <… типа команда>

ИГ оформляются след. образом:

<ИГ1> ::= <прил.> <сущ>;

<ИГ2> ::= <предлог><число><сущ.>.

И конкретные образцы заносятся в словарь: ИГ1: железнодорожным транспортом … и.т.д.

2

Словарь – совокупность индивид знаний о языке.Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход).Но большинство русских слов имеет множество словоформ, следовательно можно хранить одну лишь основу слова (процедурный подход).Структура словаря: заглавная зона (хранит основу слова),морфологическая зона (часть речи,род,одушевленность…),синтактико-семантическая зона(лексические функции слова (например время, транспорт, физич.объект) и МУ).МУ-особая зона словарной статьи, в которую помещены знания о конкретной лексеме.Число и содержание мест МУ зависят от 1.числа и х-ра актантов ситуации, обозначаемой словом (семантическая валентность) 2.числа и х-ра подлежащего и дополнений, зависящих от данного слова и реально наблюдаемых в тексте(синтаксич.валентность).Семантич. валентности: агент – одушевл.возбудитель действия, контрагент, объект (действия), адресат,инструмент,результат… max вал.=6, как у командировать: кто, кого, куда, на сколько, зачем, когда.

Морфологический анализ – обработка словоформ вне связи с контекстом, где словоформа – отрезок текста между пробелами (, - словоформа!).Функциями МА являются идентификация каждой текущей словоформы и приписывание ей морфологической информации.Этапы МА:

1.Поиск в словаре готовых форм.В русском яз. есть неизменяемые слова (ножницы).Для них МА не требуется. 2.Выделение основы. Последовательая проверка возможностей вложения в анализируемую словоформу справа налево окночаний и суффиксов.Сложность – в различении основ с чередующимися буквами (бег-бежать).

3.Поиск в словаре основ. Проблема – омонимия: разные по значению, но одинаковые по написанию словоформы.

4.Обработка словосочетаний.Склеивание отдельных словоформ, отделенных пробелами но рассматриваемых на уровне семантики как единое целое. «будем строить» заменяется на «построить».

8

Задача синтаксич. анализа заключается в том, чтобы, используя морфологическую информацию о словоформах и сведения из словаря, построить синтаксическую структуру предложения (входного высказывания).Синтаксическая структура отражает связи между отдельными словами предложения. Для ее описания используются деревья зависимостей.

Пусть x – произвольная непустая цепочка словоформ, X –мн-во точек x, т. е. вхождений словоформ в цепочку. Произвольное бинарное отношение  на X, при котором граф <, X> является деревом, называют отношением зависимости (подчинения). Само дерево <, X> является деревом зависимости для x. Для рус.яз. нет универс. алгоритмов СИА из-за его сложности, однако существуют некот.общие подходы. (на примере СИА с-мы ПОЭТ)

1.Устанавливаются предикативные [между подлежащим и сказуемым], комплетивные [при которых зависимый компонент словосочетания является необходимым добавлением, без которого господствующее слово не обладает достаточной информативностью], обстоятельственные синтаксические отношения.Выделяются словоформы, не входящие в обороты.Это основной уровень предложения.

2.Среди этих словоформ устанавливаются предикаты, т.е. словоформы имеющие модель управления

3.Для каждого предиката из синтаксической зоны МУ выделяются соответствующие ему групповые, индивидуальные и ядерные МУ. 4. Для каждой индив МУ опр-ся список кандидатов, кот удовл треб МУ в падеже, семан категориях, части речи.5.Инфа о найденных отношениях запоминается.6.С пом отсеивающих фильтров устраняются все словоформы, кот не могут быть слугами для предиката и осуществляют формирование матрицы кандидатов для каждого столбца каждой индив МУ.7.устанав-ся обстоятельс и определительные синтаксич.отношения.8.После обработки словоформ основного уровня - аналогично обр. сл. более глуб уровней.9.Результат – на вход семантического унализа (СЕА), в виде дерева разбора. Пример реализации этапа СИА:

Сколько камен(ого) угл(я) перевезен(о) жел..жн(ым) транспорт(ом) в 2010 год(у)? 6

<схема> текст→[морфологический анализ] →[синтаксич.ан] →[семантич.анализ] →[семантич.интерпретация] →[прагматич.интерпр.] <первые 3[] связаны  с [база лингвистических знаний (словарь)] и последние 3[] с [база проблемных (понятийных) знаний]>

Лингвистическая модель входного подъязыка: компонент G.

Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где

V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО;

G – синтаксич компон, опред способ порождения правильных конструкций подъязыка;

S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка.

[P] – прагматический компонент (опционально)

Программное средство реализации Lm называется лингвистическим процессором (ЕЯ-проц.)

Процесс понимания (обработки) вх.текста - это построение совокупности трех отображений

*: *j  j (анализ). Переход от знака к его денотату.

**: j  **j (семантич. интерпр.) трансляция в термины ЯПЗ данной с-мы. От денотата - к концепту

***: **j  i (прагматическая интерпретация) трансляция в реакцию, вид которой определяется целями ИДС.

12

Уровни: дискурс(предложения, находящиеся друг с другом в смысловой связи), предложение, словосочетание, слово, морфема.

Треугольник Фреге: Между знаками языка и их интерпретациями сущ тринарная связь, образов 2 типами интерпретаций знака: экстенсиональной и интенсиональной. Знаку S соответствуют денотат <референт> D (то, что наблюдается в реальном тексте с учетом контекста) и десигнат <концепт> C (смысл знака на интенсиональном уровне). + Связь донатата сконцептом существует объективно в отрыве от знака. S→D – отображение реального мира в заисимости от конкретного концепта <морфологический анализ?>.D→C – отображение значения знака в форматы некоторого ЯПЗ, использующегося для построения подели ПрО.

Аномальные св-ва вершин треугольника: 1.омонимия – знаку S соотв. несколько С: синтаксические на уровне слова (лук) или фразы (дал прикурить) и морфологические («стол» имеет одну форму в вин. и род.падежах); синонимия(вода Н20) –один D имеет разные S; пресуппозиция – внеречевые условия речевых актов, т.е. не вся информация явно указ. в тексте (закройте дверь – значит дверь есть); анафорические ссылки (та, тот)– часть сущностей в тексте заменяют указательные местоимения, эллипсис – пропуски в тексте, недосказанность (я знаю язык, и. ты тоже).

Развитием треугольника Фреге является понятие знаковой системы ZnS. Четверка вида <S, U, K, I> S – мн‑во знаков (например, слов - словарь) конкретного подъязыка, U – универсум, мн‑во денотатов К – система знаний (мн‑во понятий, в которых опис-ся концепты и их взаимоот-я), I – мн‑во интерпретаций, соотносящих знаку его денотат или концепт. 10

ЕЯ – это язык, который не требует для своего понимания (изучения) никаких правил и инструкций. Подъязык – это язык некоторой группы людей, общающихся в конкретной ПрО с конкретными целями. Язык расслаивается на малые языковые подсистемы – подъязыки.

Из всех подъязыков наиб важным (приемлемым) языком человеко-машинного общения (взаимодействия) является деловая проза.

Деловая проза – языковой носитель отношений человека в сфере производства. Это ЕЯ, ограниченный по семантике – лишенный ораторских, эмоциональных и других приемов.

Относительная полнота. Подъязык, обслуживающий некоторую ПрО, обладает достаточным набором языковых средств для обознач любого факта из этой области.

Замкнутость.При дополнении к обозримой выборке текстов подъязыка других текстов того же подъяз. не происходит пополнения словаря и грамматики.

Конечность. Подъязык имеет конечный и ограниченный словарь.

Формальная ограниченность В подъязыке ограничен набор грамматических средств и конструкций из общеязыкового арсенала.

Устойчивость Для понимания входных текстов подъязыка несущественны поверхностно‑синтаксич различия текстов с тождественным смыслом.

16

Язык – это находящаяся в распоряжении того или иного коллектива с-ма элементов – единиц разных ярусов (слов, значащих частей слов и т. д.) + система правил функ-я этих ед. С-му единиц называют инвентарем языка, а с-му правил их функц-я, т. е. правил генерации и понимания осмыслен высказ – грамматикой этого языка.

ЕЯ – это язык, кот не требует для своего понимания никаких правил и инструкций.

Общение – процесс достижения его участниками определенных согласованных целей путем обмена связанными высказываниями, выраженными, выраженными в языке, о некотором реальном/гипотетическом мире (проблем обл). Высказывания участников общения образуют связный текст (дискурс), имеющий сложную структуру. (это 2 или более предл, находя друг с другом в смысловой связи, поддерживаемой различн видами лингв согласований (видовремен, временными, стилистическими и т. д.).

Подъязык – это язык некоторой группы людей, общающихся в конкретной ПрО с конкрет. целями.

Язык расслаивается на малые языковые подсистемы– подъязыки. Расслоение языка происходит по социальным, профессиональным, географическим и лругим. признакам.

Лингвистическая модель входного подъязыка: компонент G.

Лингвистическая модель входного подъязыка: Lm = <V,G,S,[P]>, где

V – лексич. компон, опред лексику (словарь) подъязыка, обслуживающего конкретную ПрО;

G – синтаксич компон, опред способ порождения правильных конструкций подъязыка;

S – сем компон, опред способ записи логико-смысловой структуры вх. подъязыка.

[P] – прагматический компонент (опционально)

Программное средство реализации Lm называется лингвистическим процессором (ЕЯ-проц.)

14

<Словарь – совокупность индивид. знаний о языке.Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход).Если лексика богатая и словообразов.механизмы ярко выражены, используется процедурный подход: хранятся основы.>

Модель управления – особая зона словарной статьи, в которую помещена синтаксическая и семантическая информация (знания) о конкретной лексеме. Число и содержание мест МУ зависит от 1.Числа и характера актантов ситуации, обозначенной данным словом (семантической валентности) 2.Числа и характера подлежащего и дополнений, зависящих от данного слова (синтаксическая валентность) Семантич. валентность представляет собой синоним глубинного падежа в англ.языке. Примеры глубинных падежей агент(A) – одушевл.возбудитель действия, контрагент (K) – сила, против которой направлено действие, объект (О)- вещь, явл.объектом действия, адресат (D) – лицо, в пользу или во вред которому совершается действие; инструмент (I) – неодушевленный предмет или сила, составляющая причину действия или состояния;результат (R)- вещь, которая возникает в результате действия…

МУ (или несколько моделей в случае омонимии) могут иметь следующие части речи: глаголы, краткие прилагательные, причастия, деепричастия, отглаг. сущ, некоторые предлоги. Остальные части речи не имеют МУ. В словаре слова, имеющие и не имеющие МУ, описываются различным образом. max валентность для глаголов рус.яз.=6, как у командировать: кто, кого, куда, на сколько, зачем, когда.

20

Словарь – совокупность индивид. знаний о языке.Фактически каждое слово несет индивидуальное знание, т.е. его необходимо хранить в словаре (декларативный подход).Если лексика богатая и словообразов.механизмы ярко выражены, используется процедурный подход: хранятся основы.

Наиболее важные виды знаний:

1.Синтаксические отношения (СИО).В русском яз. их 3-40 (предикативные [между подлежащим и сказуемым], комплетивные [при которых зависимый компонент словосочетания является необходимым добавлением, без которого господствующее слово не обладает достаточной информативностью], обстоятельственные, определительные, количественные и.т.д.)

2.Лексические функции.Показывают индивидуальную лексич.сочетаемость отдельных слов. (синонимия (агрессия=нападение), конверсия Conv(пугать 2,1) = (бояться 1,2), дериваты Der(вышивать) = (вышивка))

3.Модель управления – особая зона словарной статьи, в которую помещена синтаксическая и семантическая информация (знания) о конкретной лексеме. Число и содержание мест МУ зависит от 1.Числа и характера актантов ситуации, обозначенной данным словом (семантической валентности) 2.Числа и характера подлежащего и дополнений, зависящих от данного слова (синтаксическая валентность) Семантич. валентности: агент – одушевл.возбудитель действия, контрагент, объект (действия), адресат,инструмент,результат…

МУ (или несколько моделей в случае омонимии) могут иметь следующие части речи: глаголы, краткие прилагательные, причастия, деепричастия, отглаг. сущ, некоторые предлоги. Остальные части речи не имеют МУ. В словаре слова, имеющие и не имеющие МУ, описываются различным образом. max валентность для глаголов рус.яз.=6, как у командировать: кто, кого, куда, на сколько, зачем, когда.

18

Соседние файлы в папке Интеллектуальные диалоговые системы