I). Приобретение знаний на метауровне
Методы категории А можно назвать обучением без выводов или механическим запоминанием. Здесь полученная информация используется для решения задач в том же виде, в котором поступает в систему.
В методах категории В внешняя информация поступает в компьютерную систему в форме знаний, следовательно, ее можно использовать в процессе логического вывода. Примером такой информации являются правила, поступающие в ЭС продукционного типа. В интеллектуальной системе необходимо иметь функцию преобразования поступающих знаний в формат, удобный для дальнейшего использования. Эту функцию выполняют редакторы знаний, которые, в отличие от редакторов данных в БД, не только корректируют поступающую информацию, но и выполняют проверку знаний, содержащихся в БЗ, на наличие конфликтов (противоречий) с новыми знаниями.
Если знания поступают в ИИС во внешнем формате, то кроме преобразования и редактирования возникает задача их понимания. Такие проблемы характерны для систем с ЕЯ-интерфейсом.
Одной из актуальных проблем ИИ является операционализация знаний, связанная с пониманием, преобразованием и использованием советов и подсказок, которые человек сообщает интеллектуальной системе в ходе решения конкретных задач. Советы и подсказки, поступающие в систему на естественном языке в терминах предметной области, необходимо преобразовывать в процедуры, ориентированные на выполнение определенных действий.
Категория С принципиально отличается от А и B тем, что интеллектуальные системы приобретают знания самостоятельно, выполняя сбор отдельных фактов, их обобщение и систематизацию. В процессе решения задач определенного класса (примеров) компьютерная система выявляет понятия, выбирает формат их представления и проводит структуризацию. Подобные задачи вызывают сложности и у человека (см. разд. 4.1, 4.2).
Проблемы понимания и преобразования знаний характерны для категорий В и С, причем последняя отличается наличием процедур обобщения, примерами которых являются замена постоянных атрибутов языка (констант) на переменные, исключение описаний с ограниченным применением, индукция, абдукция и др. Способы обобщения тесно связаны с языком представления знаний в ИИС.
Параметрическое обучение — самая простая форма в категории С. Оно заключается в определении общего вида правила, формирующего результат вывода, и в последующей корректировке входящих в него параметров, зависящих от конкретных данных. Пример обучающейся системы такого типа — известная экспертная система Meta-Dendral, предназначенная для построения структурных формул химических соединений на основе данных масс-спектрального анализа [37, 50]. В ней выводятся новые правила путем коррекции уже заложенных в БЗ продукций.
Обучение по аналогии базируется на гипотезе о том, что «если две ситуации подобны по нескольким признакам, то они подобны еще по одному признаку». Подобие ситуаций распознается на основе обобщенной меры совпадения значений важнейших признаков, с помощью которых описаны ситуации.
Вопросы индуктивного обучения рассматриваются в разд. 4.3.1, а моделям нейронных сетей посвящена глава 5.
Вопросы приобретения знаний на метауровне актуальны на современном этапе развития ИИ, так как связаны с выработкой стратегий управления процессом решения задач в ИИС. Это направление активно развивается, но здесь пока не выработано устойчивых представлений и апробированных моделей. Вопросы приобретения метазнаний частично затрагиваются в новых направлениях Data Mining и Knowledge Discovery, которые связаны с извлечением знаний из данных и будут рассмотрены ниже.
4.3.1.
ИНДУКТИВНЫЕ ВЫВОДЫ В ЛОГИКЕ
Выводы по индукции позволяют на основе обобщения частных фактов получить общие (для некоторого множества объектов) закономерности. В процессе индуктивного обучения формируются новые правила, теории и структуры. Индуктивные выводы возможны в том случае, когда представление результата частично определяется на основе входной информации. В дедуктивных выводах (см. главу 2) диапазон порождаемых представлений не может быть шире диапазона, заданного априори. Диапазон представлений, порождаемых в процессе индуктивного вывода, шире, чем диапазон, заданный изначально.
Пусть Р — множество известных фактов, имеющихся в БЗ, а H — некоторая гипотеза (направленная на обобщение этих фактов). Если Р выводится из Н, то будем считать гипотезу H истинной. Это можно записать в виде
Рассмотрим пример. Пусть множество Р включает факты:
Р = {ДОМ(иванов), ДОМ (петров), ДОМ (сидоров)}.
Предикат ДОМ(Х) имеет интерпретацию «Объект X имеет дом». На основе заданного множества фактов Р выдвигаем гипотезу Н:( Х)ДОМ(Х), которая соответствует обобщению следующего вида: «Любой объект X имеет дом». Гипотеза H является истинной для любого факта из множества Р, следовательно, Р выводимо из H, и мы вправе считать гипотезу H истинной. Замена констант «иванов», «петров» и «сидоров» обобщающей переменной (Х) расширяет область действия предиката ДОМ(Х) за пределы множества Р. Например, при появлении нового объекта «березкин» можно получить вывод ДОМ(березкин), хотя из Р этого не следует. Следовательно, диапазон объектов расширился по сравнению с исходным, а гипотеза H может быть помещена в БЗ как новый элемент знаний. За счет расширения множества P появляется возможность вывести новые заключения, которые также можно включить в БЗ. Однако при расширении класса объектов всегда есть возможность совершить ошибку. Например, если в рассмотренном примере появляется объект «береза», то приходим к странному выводу — ДОМ(береза). Очевидно, обобщение H является слишком широким в данном случае. Попытаемся сузить его, ограничив количество объектов. Пусть что можно интерпретировать фразой
«гипотеза H истинна, если подмножество Р2 множества Р можно вывести из гипотезы H и оставшегося подмножества Р1».
Допустим, подмножества Р1 и Р2 имеют вид:
Р1=Х{X[ДОМ(X)→ЧЕЛОВЕК(X)]};
P2={ДОМ(иванов); ДОМ (петров); ДОМ (сидоров)}.
На основании нового множества Р можно выдвинуть другую гипотезу
Нi:( Х)[ЧЕЛОВЕК(Х)→ДОМ(Х)], которая накладывает ограничение на область подстановки объектов в переменную X, так как в данном случае этот объект должен быть человеком. Теперь при появлении объекта «березкин» можно вывести факт ДОМ(березкин), но при появлении объекта «береза» значением предиката ЧЕЛОВЕК(береза) будет «ложь» и, следовательно, факт ДОМ(береза) не будет выведен.
Если в множество Р добавить информацию о существовании людей, не имеющих дома, т.е. в множество Р1, добавить формулу
(Х)[ЧЕЛОВЕК(Х)^¬ДОМ(Х)],
то при подстановке объекта «березкин» не сможем вывести предикат, ДОМ(березкин), так как принадлежность к роду человеческому в данном случае не является достаточным условием для владения недвижимостью. Следовательно, диапазон объектов подстановки необходимо сделать еще уже. Модифицируем подмножество Р1, добавив еще одно условие:
(X)[ДОМ(Х) →ВЛАДЕЛЕЦ(Х)]}.
Выдвинем новую гипотезу H2:
(X)[ ВЛАДЕЛЕЦ(Х) → ДОМ(Х)]}.
Теперь будем получать правдоподобные выводы, так как множество объектов для возможных подстановок в приведенные формулы ограничено людьми — владельцами домов.
Традиционный метод обобщения состоит в выборе гипотезы минимального обобщения среди большого числа возможных гипотез, в которых объекты из заданного множества фактов (Р2) заменяются переменной и которые расширяют диапазон применения исходных логических формул. Гипотеза Н2 в рассмотренном примере называется минимальным обобщением. Для того чтобы формализовать процесс минимального обобщения, необходимо иметь правила, с помощью которых можно выбрать ту или иную гипотезу. Например, чтобы увидеть, какое из ограничений сильнее ЧЕЛОВЕК(Х) или ВЛАДЕЛЕЦ(Х), необходимо иметь правило вида
(Х)[ВЛАДЕЛЕЦ(Х) → ЧЕЛОВЕК(Х)].
Если такие правила сформулированы в системе, то процесс замены констант на переменные не представляет особых трудностей. Удаление из БЗ фактов, противоречащих установленным правилам, обычно не вызывает осложнений. Трудной проблемой является создание новых предикатов, поскольку эта операция неформализуема.
Таким образом, индуктивный вывод — это построение объясняющего правила на основе заданных данных. В системах с индуктивными выводами на каждом шаге необходимо объяснять все данные, полученные к заданному моменту времени. Данные, полученные на последующих шагах, могут не удовлетворять ранее полученным объяснениям. В этом случае следует корректировать полученные ранее объясняющие правила (гипотезы). Следовательно, процесс индуктивного обучения может оказаться весьма длительным, что вполне согласуется с процессом обучения человека.
Для реализации индуктивного вывода необходимо:
-
сформулировать множество правил — объектов вывода;
-
выбрать формальный метод представления правил;
• определить способ получения информации извне (показ примеров);
• задать формальный метод вывода;
• сформулировать критерий правильности вывода.
Индуктивные выводы выполняются в процессе бесконечного повторения цикла, включающего процедуры запроса входных данных, формирования гипотез, получения и проверки результатов. В настоящее время индуктивные выводы часто используются для порождения объясняющих гипотез в системах с правдоподобными рассуждениями абдуктивного типа, в которых могут быть построены различные обобщения базовой теории, соответствующие наблюдаемым фактам.
4.3.2.
ДСМ-МЕТОД
Сокращение ДСМ расшифровывается Джон Стюарт Милль. Этот ученый в середине XIX в. предложил принципы индуктивного вывода, которые положены в основу метода автоматического порождения гипотез. Способы установления причинно-следственных отношений, предложенные Миллем, основываются на идеях выявления сходства и различия в наблюдаемых ситуациях. Способность улавливать сходство и выделять различия — фундаментальная способность, присущая, по-видимому, всем живым существам. Опираясь на эту способность, Милль сформулировал следующие принципы индукции.
1. Принцип единственного различия: «Если после введения какого-либо фактора появляется (или после его удаления исчезает) известное явление, причем мы не вводим и не удаляем никакого другого обстоятельства, которое могло бы иметь влияние, то указанный фактор составляет причину явления» [34]. Этот принцип можно проиллюстрировать схемой:
А, В, C=> D
А, В, С => D
………..
A, В, C=> D
B, С не => D
Знак => трактуется как появление D при наличии А, В, С. При достаточном количестве экспериментов принцип единственного различия позволяет утверждать, что А является причиной, a D — следствием.
2. Принцип единственного сходства, который гласит: «Если все обстоятельства явления, кроме одного, могут отсутствовать, не уничтожая этим явления, то это обстоятельство является причиной данного явления». Схема такова:
A, В, C=> D
A, В, C=> D
………
A, В => D
A, C=> D
………
A => D
Из этой схемы следует, что А и D связаны причинно-следственным отношением.
3. Принцип единственного остатка: «Если вычесть из какого-либо явления ту его часть, которая является следствием известных причин, то остаток явления есть следствие остальных причин». Рассмотрим схему:
A, В, C=> D, E
A, В, C=> D, E
………
В, C=> E
После того как из примеров A, В, C=> D было «вычтено» причинно-следственное отношение A=>D, были получены наблюдения В, С => Е, на основании которых можно предположить, что В и С являются возможными причинами явления Е. Для дальнейшего уточнения нужно проверить, приводит ли исключение В к появлению Е. Если так, то причиной явления Е служит С, в противном случае — В. Возможно также, что явление Е обусловлено одновременным наличием В и С, т.е. появление некоторого элемента ситуации может определяться не отдельными факторами, а их совокупностью.
Схемы Милля справедливы лишь при условии, что в описании ситуации присутствует полное множество наблюдаемых фактов и явлений.
Сущность ДСМ-метода заключается в следующем. Пусть задано множество причин А = {А1, А2,..., Ар), множество следствий В = {В1, В2,..., Вт) и множество оценок Q = { q1, q2,..., gr}. Выражение вида Ai=>Bj называется положительной гипотезой, выражающей утверждение «Аi является причиной Bj с оценкой достоверности qk». Отрицательной гипотезой называется выражение Ai не=>Bj, которое формулируется «Аi не является причиной Bj с оценкой достоверности qk». Положительные гипотезы будем обозначать h+i,j,k, отрицательные — h-i,j,k. Среди значений выделим два специальных, которые можно интерпретировать как «ложь» (0) и «истина» (1). Гипотезы с этими оценками можно рассматривать как явления, истинность или ложность которых твердо установлена. Остальные значения между 0 и 1 будем обозначать рациональными числами к/п, где к=1,..., п-1, а п характеризует число примеров.
Обобщенный алгоритм ДСМ-метода включает следующие шаги.
1. На основе исходного множества положительных и отрицательных примеров (наблюдений) формируется набор гипотез, которые записываются в матрицы М+ и М-. Гипотезы формируются на основе выявления сходства и различия в примерах. Матрицы имеют вид:
2. К исходному множеству примеров добавляются новые наблюдения, которые могут либо подтверждать выдвинутые гипотезы, либо опровергать их, при этом оценки гипотез изменяются следующим образом. Если некоторая гипотеза hijk имела оценку qk=k/n, то при появлении нового примера (n+1) проводится проверка на подтверждение этой гипотезы. В случае положительного ответа оценка qk=(k+l)/(n+l), иначе qk=(k-1)/(n+1). В процессе накопления информации оценки выдвинутых гипотез могут приближаться к 1 или 0. Изменение оценок может также иметь колебательный характер, что, как правило, ведет к исключению таких гипотез из множеств М + или М-.
-
Циклическое добавление примеров, сопровождающееся изменением оценок достоверности гипотез с периодическим изменением множеств М + и М-.
-
Завершение процесса индуктивного вывода при выполнении условий окончания цикла. В качестве таких условий могут использоваться меры близости значений qi к 0 или 1, а также дополнительные условия, которые могут быть связаны с ограничением времени (количества новых примеров) вывода и т.п.
В современных модификациях ДСМ-метода используются выводы по аналогии, проводится учет контекста реализации причинно-следственных отношений, применяются нечеткие описания фактов и т.д. [3, 29, 43].
4.4.
СРЕДСТВА КОМПЬЮТЕРНОЙ ПОДДЕРЖКИ
ПРИОБРЕТЕНИЯ ЗНАНИЙ
Проблема автоматизированного приобретения знаний связана с разработкой специальных информационных технологий, обеспечивающих поддержку процедур извлечения и структурирования знаний. К настоящему времени автоматизированные системы приобретения знаний прошли в своем развитии три стадии.
На первой стадии в середине 1980-х гг. появилось первое поколение систем приобретения знаний на базе «оболочек» экспертных систем. Процессы извлечения и структурирования знаний выполнялись человеком. Подсистема приобретения знаний служила для ввода знаний в БЗ и ее корректировки. Экспертные системы заполнялись знаниями по следующей схеме:
-
создание конкретной экспертной системы;
-
опустошение базы знаний;
-
разработка системы приобретения знаний для нового наполнения БЗ;
-
формирование базы знаний для другой экспертной системы.
На второй стадии в конце 1980-х гг. появились системы приобретения знаний второго поколения, основанные на предварительном детальном анализе предметной области и моделях, позволяющих рассматривать процедуры извлечения, структурирования и формализации знаний как процесс преобразования лингвистических знаний в другие представления и структуры [11]. Существенное влияние на системы второго поколения оказала психосемантика, на базе которой были созданы инструментальные средства многомерного шкалирования, факторного анализа, репертуарных решеток, логического
Третья стадия развития систем приобретения знаний (с 1990-х гг.) связана с созданием автоматизированных средств приобретения знаний. При этом структура БЗ формируется в процессе приобретения знаний, а не заранее.
Множество существующих и потенциально возможных систем приобретения знаний можно отобразить классификацией, предложенной в работе [11] (табл. 4.6).
Таблица 4.6