Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
IngMet.doc
Скачиваний:
55
Добавлен:
02.03.2016
Размер:
4.21 Mб
Скачать

3.1.10. Автоматизированное приобретение знаний

3.1.10.1. Эволюция систем приобретения знаний (СПЗ)

I поколение – начало-середина 80-х г.г.: TEIRESIAS (Дэвис), SIMER+MIR (Осипов), АРИАДНА (Моргоев).

Основной принцип – прямой диалог эксперта с компьютером через СПЗ.

Недостатки ПСЗ I поколения:

  1. Слабая проработка методов извлечения и структурирования знаний.

  2. Жесткость модели представления знаний.

  3. Ограничения на предметную область.

Схема разработки и использования СПЗ I поколения:

Создание конкретной ЭС  Опустошение БЗ  Разработка СПЗ  Формирование новой БЗ

Для промышленного применения эта схема оказалась несостоятельной.

СПЗ II поколения (конец 80-х) ориентировалось на более широкий модельный подход, основанный на детальном анализе предметной области. В рамках этого подхода появилась методология KADS (Knowledge Acquisition and Documentation Structuring). В основе методологии лежит понятие интерпретационной модели, позволяющей процессы извлечения, структурирования и формализации знаний рассматривать как интерпретацию лингвистических (вербальных) знаний в другие представления и структуры.

3.1.10.2. KADS-методология

Результатом анализа в соответствии с KADS-методологией является концептуальная модель экспертизы, состоящая из уровней:

  • области (концепции, отношения, структуры);

  • вывода (метаклассы, источники знаний);

  • задачи (цели, задачи);

  • стратегического (планы, метаправила).

KADS использует библиотеку интерпретационных моделей, описывающих общие экспертные задачи (диагностика, мониторинг и пр.). Интерпретационная модель представляет собой концептуальную модель без уровня области. Формирование уровня области производится в результате лингвистического анализа.

Пример: Системы программной поддержки KADS-методологии KADS power Tools. В нее входят: редактор протоколов PED (Protocol Editor); редактор системы понятий (Concept Editor); редактор концептуальных моделей CME (Conceptual Model Editor); библиотекарь интерпретационной модели (ИМ-библиотекарь) IML (Interpretation Model Librarian).

Редактор протоколов – программное средство анализа знаний о предметной области на лингвистическом уровне, для которого исходным материалом являются тексты. Редактор протоколов реализован как гипертекстовая система, обеспечивающая выделение фрагментов в анализируемом тексте, установление связей между фрагментами, группирование фрагментов, аннотирование фрагментов.

Типы связей между фрагментами:

  • аннотация (связь между фрагментом протокола и введенным текстом);

  • член группы (связь между фрагментом и названием – именем группы фрагментов);

  • поименованная связь (связь между двумя фрагментами);

  • понятийная связь (поименованная связь между фрагментом и понятием).

Редактор понятий позволяет организовывать предметные знаний в виде набора понятий с атрибутами и связывающих их отношений.

ИМ-библиотекарь позволяет проводить анализ предметных знаний на эпистемологическом уровне (уровне обоснованности). Основное назначение библиотекаря – помочь аналитику выбрать одну или более ИМ, наиболее подходящих для проблемной области. Для этого библиотекарь демонстрирует пользователю иерархию типов задач, для которых в библиотеке имеются ИМ. По каждой ИМ отображаются ее атрибуты: определение, краткое описание, структура задачи, стратегии, знания о предметной области.

3.1.10.3. Психосемантика

На разработку СПЗ IIпоколения наибольшее влияние оказали методы смежных наук, в частности психосемантики. Психосемантика позволяет реконструировать семантическое пространство памяти и моделировать глубинные структуры знаний эксперта. Развитие методов психосемантики шло по линии разработки пакетов прикладных программ, основанных на методах многомерного шкалирования, факторного анализа, обработки репертуарных решеток. Примеры: KELLY, MADONNA, MEDIS. Параллельно развивались системы, основанные на нечисленном логическом выводе:ETS,AQUINAS.

3.1.10.4. СПЗ IIIпоколения

Недостатки СПЗ II поколения:

  1. Несовершенство пользовательского интерфейса и неприменимость для неподготовленных экспертов.

  2. Сложность настройки на конкретную профессиональную языковую среду.

  3. Необходимость разработки дорогостоящих лингвистических процессоров для анализа текстов.

СПЗ III поколения – это гибкие, сложные программные средства для аналитика, использующие графические возможности производительных ЭВМ и достижения CASE-технологии. Эти системы, в отличие от СПЗ II поколения, позволяют не задавать заранее интерпретационную модель, а формировать структуру БЗ динамически.

Примеры: MACAO, KEATS, NEXPERT-OBJECT.

Проблемы современных СПЗ:

  1. Методологические. Причина – отсутствие теоретического базиса процесса извлечения и структурирования знаний. Даже предельно формализованная KADS-методология страдает громоздкостью и избыточностью.

    1. Размытость критерия выбора подходящей задачи.

    2. Несогласованность теоретических вопросов (разброс терминологии, отсутствие обоснованной классификации методов извлечения знаний, слабая проработанность ряда теоретических вопросов).

    3. Отсутствие единой теории структурирования знаний.

    4. Жесткость моделей представления знаний.

    5. Эмпиричность процедуры выбора программного инструментария.

  2. Технологические (в основном являются следствием методологических).

    1. Отсутствие согласованности между отдельными методами инженерии знаний.

    2. Недостаток квалифицированных специалистов в области инженерии знаний.

    3. Недостаток технико-экономических показателей оценки эффективности ЭС.

    4. Недоступность методических материалов по практике проведения сеансов извлечения знаний.

    5. Неполнота и недостаточность имеющихся методов структурирования знаний; отсутствие рекомендация по выбору подходящего метода.

    6. Разрыв между языками представления знаний и языками, встроенными в оболочку ЭС.

    7. Низкая адаптивность существующих программных средств к пользователю и предметной области.

3.1.10.5. Примеры систем приобретения знаний

Автоматизированное структурированное интервью

TEIRESIAS

Основные принципы. В случае неудачи в режиме консультации система предлагает эксперту выделить причины неудачи. Контекст, полученный в результате этого, позволяет системе сформировать некоторые «ожидания», характеризующие содержание нового правила, которое будет вводиться экспертом для устранения неудачи.

MOLE

Два этапа приобретения знаний:

        1. Структурированное интервью, в ходе которого эксперту или аналитику предлагается ввести список событий предметной области и определить связи между ними.

        2. Контекстное приобретение знаний аналогично TEIRESIAS.

Система состоит из двух частей: интерпретатора базы предметных знаний и подсистемы приобретения знаний, которая поддерживает как процесс первоначального заполнения БЗ, так и процесс отладки и уточнения БЗ. Интерпретатор БЗ ориентирован на класс диагностических задач и осуществляет вывод решения путем сопоставления заранее отобранного множества гипотез с совокупностью наблюдений. Таким образом осуществляется некоторый вариант метода эвристической классификации.

В БЗ MOLE первоначально существуют знания о том, какие типы когнитивных структур необходимы для осуществления вывода и как распознать знания того или иного типа в информации, сообщаемой экспертом. Эксперт сообщает MOLE список гипотез и наблюдений и указывает связанные пары «наблюдение-гипотеза» и «гипотеза-гипотеза».

Результатом этого этапа извлечения знаний является сеть объектов. Затем MOLE пытается получить дополнительную информацию: о типе объекта; о природе ассоциативной связи, ее направлении и численной оценке ее силы.

На этапе начального формирования БЗ назначаются численные веса связей по умолчанию на основании следующих соображений:

  1. Каждое наблюдение должно быть объяснено некоторой гипотезой;

  2. Только одна из гипотез, объясняющих данное наблюдение, является в каждом конкретном случае наиболее вероятной;

  3. Сумма оценок для связей данного наблюдения с объясняющими его гипотезами равна единице.

SALT (университет Карнеги-Меллоуна)

SALT – система приобретения знаний для задач конструирования методом пошагового распространения ограничений.

Для решения задач необходимы знания следующих типов:

  1. Процедуры установления значений параметров.

  2. Процедуры проверки ограничений.

  3. Процедуры коррекции значений параметров с указанием цены каждого корректирующего действия.

OPAL (Стэнфордский университет)

Обеспечивает формирование и наращивание БЗ для ЭС ONCOCIN.лечения онкологических больных. Основана на детально проработанной модели медицинских знаний. Системой используются следующие типы знаний:

  • схема лечения (порядок и длительность режимов лечения);

  • критерий выбора протокола;

  • химиотерапия (описание комбинаций лекарств, назначаемых в том или ином режиме, дозировка);

  • радиотерапия (локализация и дозировка терапии);

  • изменения в составе крови, требующие модификации дозировки;

  • негативные реакции на лечение;

  • другие отрицательные последствия лечения, требующие изменения дозировки лекарств;

  • перерыв или прекращение лечения;

  • лабораторные исследования.

Эти типы знаний связываются в иерархическую структуру. В системе реализованы специализированные графические интерфейсы, ориентированные на ввод знаний определенных типов.

Схемы протоколов и заполненные формы транслируются системой во внутреннее представление БЗ ЭС ONCOCIN. По схемам протоколов порождаются диаграммы переходов, называемые генераторами.

KNACK (университет Карнеги-Меллоуна, 1989 г.)

Единственными знаниями, встроенными в систему являются знания об оценке проектов вообще, независимо от их содержания. Остальные знания приобретаются экспертами на основе диалога и анализа документов, называемых отчетами.

Приобретение знаний, необходимых для оценки проектов определенного класса, система осуществляет в два этапа:

              1. Настройка на класс проектов. Создание предварительной модели.

              2. Трансляция модели предметной области в программу на языке OPS-5.

Имитация консультаций

АРИАДНА

Основана на многократном решении экспертом проблемы классификации в режиме последовательной вопросно-ответной консультации «клиент-эксперт».

ЭСКИЗ

Реализован набор игр, являющихся той или иной модификацией принципа репертуарных решеток.

Интегрированные среды приобретения знаний

AQUINAS

Состав:

  • система Dialog Manager для помощи начинающим пользователям;

  • система ETS для извлечения и анализа репертуарных решеток с последующим преобразованием их в базу продукционных правил;

  • средства конструирования различных иерархических структур знаний;

  • средства извлечения, представления и использования неточных знаний;

  • средства тестирования и коррекции БЗ;

  • средства, позволяющие эксперту оценивать конструкторы (?) по наиболее подходящим шкалам;

  • средства работы с несколькими экспертами;

  • средства автоматического пополнения и коррекции БЗ.

Dialog Manager представляет собой ЭС, специально созданную для того, чтобы консультировать эксперта о возможностях, предоставляемых AQUINAS. Режимы взаимодействия с Dialog Manager:

  • автоматический – Dialog Manager полностью управляет процессом извлечения знаний;

  • ассистирующий – выдача рекомендаций эксперту по его дальнейшим действиям;

  • режим наблюдения.

В БЗ Dialog Manager имеются эвристики, позволяющие системе переходить от автоматического режима к ассистирующему при приобретении экспертом достаточного опыта.

KITTEN (Knowledge Initiation and transfer Tools for Experts and Novices)

Основана на построении и анализе репертуарных решеток. Обеспечивается извлечение элементов и конструкторов из текста, имеются процедуры, анализирующие примеры решения задач экспертом и генерирующие по ним продукционные правила. Эти правила могут быть загружены в БЗ оболочки NEXPERT, с помощью которой далее проводится тестирование БЗ.

Проблемы, которые не решаются методами приобретения знаний:

  1. Наличие посредника (аналитика) между экспертом и системой.

  2. Отсутствие системного решения проблем пробелов в знаниях, выявления глубинных знаний.

  3. Отсутствие связи приобретения знаний с остальными направлениями инженерии знаний.

Приобретение знаний из текстов

Системы, основанные на моделях понимания текста на лингвистическом уровне, состоят из двух частей:

  • морфологический и синтаксический анализ;

  • семантический анализ, использующий результаты работы первой части и словарно-справочную информацию для построения формализованного образа текста.

Особенности систем текстового приобретения знаний:

  1. Отсутствие эксплицитного (явного) соотнесения элементов текста с элементами модели.

  2. Необходимость предварительного формирования словаря предметной области для выполнения морфологического анализа.

Понимание теста на семантическом уровне требует выявления не только лингвистических, но и логических отношений между языковыми объектами. Среди моделей понимания текста наиболее известны:

  • модель семантик предпочтения (Уилкс);

  • модель концептуальной зависимости (Хайес-Рот);

  • модель «смысл-текст» (Мельчук).

Все они так или иначе основываются на семантическом графе и описании коммуникативной структуры текста.

KRITON

Выявляются хорошо структурированные знания из текстовых источников. Основанный на контент-анализе метод протокольного анализа используется для выявления процедурных знаний. Он осуществляется в пять шагов (см. выше).

TAKT (Tool for Acquisition of Knowledge from Text)

Требует предварительной подготовки предложений текста (разметки посредством введения явной скобочной структуры). В результате анализа выделяются объекты, процессы и отношения каузального характера.

Инструментарий прямого приобретения знаний SIMER+MIR

Система разработка в ИПС РАН под руководством Г.С. Осипова. Представляет собой совокупность программных средств для формирования модели и БЗ предметной области. Система ориентирована на области с неясной структурой объектов, с неполным множеством свойств объектов и множеством разнородных и неравносильных связей между объектами.

Использование системы на заключительном этапе не предполагает участия специалистов-разработчиков экспертных систем.

Система включает в себя:

  • модуль прямого приобретения знаний SIMER;

  • систему моделирования рассуждений типа аргументации MIR;

  • программу + адаптации системы MIR к БЗ, сформированной при помощи SIMER;

  • программной среды поддержки БЗ;

  • интерфейса инженера по знаниям, основанного на языке FORTE.

Одним из наиболее распространенных видов экспертизы являются высказывания эксперта об объектах. Эти высказывания (формы сообщений) имеют вид:

<Объект><Отношение><Объект>

Характерные формы сообщений

Номер формы

Имя формы

Номер формы

Имя формы

Ф1

 характерно для 

Ф13

 иногда сопровождается 

Ф2

 наблюдается при 

Ф14

 часто сопровождается 

Ф3

 отмечается при 

Ф15

 исключает 

Ф4

 есть проявление 

Ф16

 приводит к 

Ф5

 есть признак 

Ф17

При  возникает 

Ф6

 сопровождает 

Ф18

 может привести к 

Ф7

 нередко сопровождается 

Ф19

 может развиваться в 

Ф8

При  нередко присутствует 

Ф20

С  начинается 

Ф9

 может наблюдаться при 

Ф21

 развивается при 

Ф10

 обычно сопровождается 

Ф22

 может развиваться при 

Ф11

При  как правило 

Ф23

 может начаться с 

Ф12

При  обычно 

Остальные сообщения, называемые типами сообщений, строятся на основе форм сообщений.

Возможные типы сообщений

Тип

Сообщение

Т1

 есть проявление , и  может сопровождать 

Т2

 есть проявление , и  сопровождается 

Т3

 может увеличивать возможность , и  увеличивает возможность 

Т4

 может сопровождаться , и  может быть проявлением 

Т5

 сопровождается , и  может быть проявлением 

Т6

 есть проявление , и  есть проявление 

Т7

 может увеличивать возможность , и  может увеличивать возможность 

Т8

 может протекать с , и  может протекать с 

Т9

 увеличивает возможность , и  увеличивает возможность 

Т10

 сопровождается , и  может сопровождать 

Т11

 сопровождается , и  сопровождается 

Т12

 исключает , и  исключает 

Т13

 приводит к 

Т14

 может привести к 

Т15

 увеличивает возможность развития 

Т16

 может увеличить возможность развития 

Т17

 исключает возможность развития 

Для приобретения знаний в системе SIMER используются стратегии разбиения на ступени и репертуарных решеток.

Сценарии стратегии разбиения на ступени:

  • «Имя – свойство»;

  • «Множество имен – свойство».

Сценарий «Имя – свойство»:

    1. Вопрос системы об имени события.

    2. Сообщение эксперта об имени события.

    3. Вопрос системы об имени свойства.

    4. Сообщение эксперта об имени свойства.

    5. Вопрос системы о существовании множества значений свойства.

    6. Ответ эксперта (да/нет).

    7. В случае отрицательного ответа имя свойства воспринимается как имя события.

    8. Если имя события, образованного на шаге 3, отсутствует в БЗ, то это событие рассматривается как новое, и для него выполняются шаги 2 – 7.

    9. Вопрос системы о типе множества значений свойства (непрерывное/дискретное).

    10. Ответ эксперта.

    11. Вопрос системы о единице измерений свойства.

    12. Сообщение эксперта о единице измерения.

    13. Вопрос системы о множестве значений свойства.

    14. Сообщения эксперта о множестве значений свойства.

    15. В процессе выполнения шагов 2 – 6 создается глобальный объект «имя свойства» и область его значений. Совокупность таких объектов будем называть базисом свойств области.

    16. Вопрос системы о подмножестве значений свойства, характерного для описываемого события.

    17. Сообщение эксперта о подмножестве значений свойства.

В результате шага 7 один из элементов базиса свойств связывается с описываемым событием (с указанием подмножества области значений элемента базиса, характеризующего описываемое событие).

Для сценария «Множество имен – свойство» шаг 1 многократно повторяется, а затем выполняются шаги 2 – 7 для каждого имени события.

Стратегия репертуарных решеток направлена на преодоление когнитивной защиты эксперта. Механизм преодоления основан на выявлении его личностных (персональных) конструктов. Каждый конструкт описывается некоторой совокупностью шкал, а каждая шкала образуется оппозицией свойств.

Для описания моделирования рассуждений в системе MIR введем следующие обозначения:

О – опрос признаков из множества S;

П – порождение множества гипотез Г;

И – исключение множества гипотез Г.

Этапы работы системы MIR:

  1. Формирование множества признаков S при помощи модуля О.

  2. Порождение и итеративное пополнение множества гипотез Г при помощи модуля П, итеративное пополнение множества признаков S. Выполняются операции вида: Г  ГГ1 S  SS1 Этот процесс продолжается до стабилизации Г и S.

  3. Выполняется исключение гипотез из Г на основе анализа отрицательных связей и положительных связей для обусловленных признаков (признаков, отсутствие которых имеет больший диагностический вес, чем их присутствие).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]