Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

инфа в тех универе

.pdf
Скачиваний:
24
Добавлен:
30.05.2015
Размер:
8.73 Mб
Скачать

4, Метаданные для информационных ресурсов

языков DTD или XML Schema. В первом случае модель часто называют описанием типа документа, во втором — схемой документа.

Модель документа может отсутствовать. XML позволяет представлять как слабоструктурированные данные (документы без модели), так и струк­ турированные данные (документы, ссылающиеся на модели).

Наличие модели позволяет автоматически верифицировать XMLдокумент, т. е. проверять его структуру и содержимое на соответствие ей. Выделяются два уровня верификации:

проверка соответствия базовому синтаксису XML;

проверка соответствия модели.

Верификация на первом уровне применима по отношению к любому XML-документу и не использует модель. Успешно прошедший ее XML-до­ кумент называется правильным (корректным). Для верификации на втором уровне требуется модель. XML-документ, соответствующий ей, называется допустимым.

Модель документа фактически определяет прилоэюение XML, т. е. язык разметки, построенный на основе XML. Таким образом, с помощью XML могут описываться произвольные данные, в том числе в БД. В на­ стоящее время активно развивается новый класс СУБД, использующих XML-платформу. Такие СУБД называются XML-ориентированными.

В табл. 4.2 приведен перечень стандартов и спецификаций, состав­ ляющих ядро платформы XML. Их краткая аннотация содержится в [119, 121], а полные описания опубликованы на сайте W3C (http://www.w3.org).

 

 

 

Таблица 4.2

Группа

Краткое название

Назначение

 

стандартов

стандарта

 

 

 

(спецификации)

 

 

1 Фундаменталь­

XML

Спецификация языка XML

 

ные стандарты

XML Information

Спецификация базовых типов данных

платформы XML

Set

Спецификация механизмов использова­

 

Namespaces in

 

XML

ния пространств имен

 

Идентификация

XPointer

XML Pointer Language — язык указателей

элементов дан­

 

XML. Определяет правила построения и

ных в XML-до­

 

использования указателей

 

кументах и опи­

XLink

XML Linking Language — язык связыва­

сание связей

 

ния XML. Определяет правила задания и

между ними

 

интерпретации ссылок

 

 

XInclude

XML Inclusions. Определяет

механизм

 

 

включения одного XML-документа в

 

 

другой

1

130

Группа

стандартов

1 Описание пред­ ставления и пра­ вил трансформа­ ции XML-доку­ ментов

1 Модели доку­ ментов и пред­ ставление мета­ данных

1 Языки запросов

Передача XML-данных

4.2. Семантический web и платформа XML

 

 

 

 

Продолэюение таблицы 4.2

Краткое название

Назначение

 

 

стандарта

 

 

 

 

 

(спецификации)

 

 

 

 

 

XSL

Extensible Stylesheet Language — расши­

 

 

ряемый язык стилей. Служит для описа­

 

 

ния представления XML-документов

 

XSLT

Extensible Stylesheet Language for Trans­

 

 

formation — расширяемый язык стилей

 

 

для трансформации. Служит для описа­

 

 

ния правил преобразования XML-доку­

 

 

ментов

 

 

 

 

CSS

Cascading Style Sheet — язык описания

 

 

каскадных таблиц стилей. Служит для

 

 

описания представления XML-докумен­

 

 

тов

 

 

 

 

DTD

Document Туре Definition — определение

 

 

типа документа. Язык описания модели

 

 

XML-документа

 

 

 

 

XML Schema

Язык описания модели XML-документа

 

RDF

Модель и язык представления метадан­

 

 

ных, являющийся приложением XML

|

RDF Schema

Метамодель и

язык

описания

моделей 1

 

метаданных, базирующихся на RDF

|

XQuery (XQL)

XML Query Language — язык запросов 1

 

для XML-данных

 

 

|

XPath

XML Path Language — язык описания ]

 

путей для доступа к фрагментам XML-до­

 

 

кументов. Используется в XPointer, XSLT

 

 

и XQuery

 

 

 

1

XMLP

XML Protocol

протокол

передачи 1

 

XML-данных. Определяет механизмы

 

 

пакетного обмена XML-данными и спо­

 

 

собы удаленного вызова процедур в

 

 

WWW

 

 

 

 

SOAP

Simple Object Application Protocol — yn- 1

 

рощенный прикладной протокол переда­

 

 

чи XML-данных

 

 

 

|

XForms

XML Forms. Определяет механизм пере- 1

 

дачи содержимого web-форм (например,

 

 

запросов и результатов их выполнения)

 

 

для XML-данных

 

 

|

131

 

4. Метаданные для информационных ресурсов

 

 

 

 

Окончание таблицы 4.2

Группа

Краткое название

 

Назначение

 

стандартов

стандарта

 

 

 

 

 

(спецификации)

 

 

 

 

1 Интерфейсы

DOM

Document Object Model — объектная мо­

прикладного

 

дель документа. Определяет

объектную

программирова­

 

модель ИР (XML-документа) и API для

ния

SAX

его обработки

 

 

 

 

1 Simple API for XML. API для синтаксиче­

 

 

ского анализа XML-документов, осно­

 

XHTML

ванный на событиях

 

 

1 Обеспечение

Extensible HyperText Markup Language —

совместимости с

 

расширяемый HTML. Определяет модель

web-1

 

XML-документа,

соответствующую

 

 

HTML 4, благодаря чему HTML 4 может

 

XML Base

интерпретироваться как приложение XML

 

Определяет способ представления базо- 1

 

 

вых адресов в гиперссылках. Использует­

 

 

ся в XLink для поддержки соответствую­

 

 

щих типов гиперссылок, фигурирующих

1 Обеспечение

XML-Signature

в HTML-pecypcax

 

 

XML-Signature Syntax and

Processing. 1

информацион­

 

Спецификация

электронной

цифровой

ной безопасно­

 

подписи для XML-документов

 

сти

XML Encryption

XML Encryption Syntax and Processing.

Идентификация

URl

Спецификация шифрования XML-данных

Uniform Resource Identifier — унифици­

ИР

 

рованный идентификатор ресурса. Обоб­

 

 

щенный формат идентификатора ИР. Его

 

URL

разновидностями являются URL и URN

 

Uniform Resource Locator — унифициро- 1

 

 

ванный указатель ресурса. Формат иденти­

 

URN

фикатора ИР на основе его адреса в сети

 

Uniform Resource Name — унифицирован- 1

 

 

ное имя ресурса. Формат идентификатора,

Представление

MathML

не зависящего от сетевого адреса ИР

Mathematical Markup Language — язык

научной инфор­

 

математической

разметки. Является при­

мации

 

ложением XML и позволяет описывать

 

 

математические выражения

 

 

CML

Chemical Markup Language — язык хими­

 

 

ческой разметки. Является приложением

 

 

XML и позволяет описывать химические

 

 

формулы и уравнения

 

|

132

4.2. Семантический web и платформа XML

Все стандарты и спецификации платформы XML синтаксически еди­ ны: компоненты платформы, расширяющие функциональность XML, ис­ пользуют синтаксис этого языка, т. е. являются приложениями XML. Язык HTML также может быть определен как приложение XML, поэтому переход к платформе XML не грозит потерей ИР, накопленных в WWW.

Основные выводы

\. Актуальность формирования и применения метаданных обусловле­ на стремительным развитием Internet и электронных библиотек, переходом к использованию ИР, понимаемых компьютером. При этом метаданные при­ званы обеспечить внутреннюю интерпретируемость электронных докумен­ тов и тем самым качественно повысить эффективность поиска ИР.

2.Наиболее распространенный универсальный набор элементов мета­ данных — Дублинское ядро — в настоящее время стандартизован.

3.Формализованное представление метаданных может быть опреде­ лено на основе модели RDF. Синтаксис метаданных в RDF описывается с помощью XML.

4.Технологии, использующие метаданные, стимулируют разработку программ автоматического извлечения знаний из текстов. Важной задачей является создание средств автоматического формирования метаданных по содержимому ИР. Например, существуют программы, извлекающие мета­ данные из тегов <МЕТА> HTML-страниц.

5.Недостатки и ограничения технологий Internet первого поколения привели к разработке консорциумом W3C концепции семантического web, основанного на расширяемом языке разметки XML. Возникла новая техно­ логическая платформа web-2 — платформа XML.

6.Расширяемость XML, отделение содержательных данных докумен­ та (контента) от информации, описывающей его представление, наличие средств моделирования и верификации документов, поддержка метаданных, использование обобщенного механизма идентификации ИР и другие свой­ ства платформы XML обусловливают новые возможности web-2, а также совместимость семантического web с действующими технологиями web-1.

Вопросы для самопроверки

1.Охарактеризуйте понятие «метаданные».

2.Что понимается под системой метаданных?

3.Где и для чего используются метаданные?

4.Каковы основные требования к системе метаданных?

5.Дайте характеристику модели RDF.

6.Назовите основные виды метаданных.

7.Перечислите наиболее известные системы метаданных.

133

4.Метаданные для информационных ресурсов

8.Перечислите элементы системы метаданных «Дублинское ядро».

9.Какие типовые атрибуты служат для определения элементов системы метаданных?

10.Где могут храниться метаданные?

11.Какие достоинства, недостатки и ограничения присущи технологиям Internet первого поколения?

12.Что такое скрытый web? Что ограничивает доступ к его ИР?

13.На что направлена концепция Semantic Web? Каковы ее основные компоненты?

14.Что понимается под технологической платформой web-2? Каково ее ядро?

15.Что такое модель документа? Зачем она нужна?

16.Какие языки предназначены для описания моделей XML-документов?

17.Что понимается под приложением XML?

18.Назовите основные группы стандартов XML-платформы.

Историю цивилизации моэюно выра­ зить в шести словах: чем больше знаешь, тем больше моэюешь.

Э.Абу

5- МОДЕЛИРОВАНИЕ ЗНАНИИ О ПРЕДМЕТНЫХ ОБЛАСТЯХ КАК ОСНОВА ИНТЕЛЛЕКТУАЛЬНЫХ АВТОМАТИЗИРОВАННЫХ СИСТЕМ

Моделирование знаний о предметных областях базовое направление ИИ. В главе представлены его методологические и технологические основы. Изложение начинается с анализа категории знания. Рассмотрены разновид­ ности и концептуальные свойства знаний. Сформулированы требования к представлению знаний. Приведен обзор основных классов моделей знаний. Описаны четыре модели семантических сетей.

Ваэюной разновидностью сетевой модели знаний является онтология. Задачи интеллектуализации Internet стимулируют интенсивное развитие онтологи­ ческого подхода. Его развернутая характеристика представлена на страни­ цах главы.

В интеллектуальных автоматизированных системах модели знаний реали­ зуются в рамках БЗ. Изложены концептуальные основы технологии БЗ: обобщенная структура БЗ, система операций для работы со знаниями, ме­ тоды интеллектуальной верификации знаний (в том числе стратегии и ал­ горитмы разрешения противоречий), механизмы наследования в БЗ.

Содерэюание главы соответствует направлениям исследований в области ИИ 2 и 3.1.3.

5.1. Категория знания

Знание сила. Ф. Бэкон

В основе исследований в области ИИ лежит подход, связанный со знаниями. Опора на знания — базовая парадигма ИИ. Как и многие фунда­ ментальные научные категории (например, алгоритм, интеллект, деятель­ ность и т. д.), понятие «знание» относится к интуитивно определяемым.

Содержание параграфа соответствует направлению исследований в области

ИИ 2.1.

135

5.Моделирование знаний о предметных областях

ВБСЭ дается следующее его толкование: «Знание — проверенный практи­ кой результат познания действительности, верное ее отражение в сознании человека. Знания бывают житейскими, донаучными, художественными, на­ учными (теоретическими и эмпирическими)».

Знания о некоторой ПрО представляют собой совокупность сведений об объектах этой ПрО, их существенных свойствах и связывающих их от­ ношениях, процессах, протекающих в данной ПрО, а также методах анализа возникающих в ней ситуаций и способах разрешения ассоциируемых с ними проблем. Учитывая широту подобного толкования знаний, коротко рас­ смотрим прочие трактовки этой базовой категории.

В «Словаре русского языка» СИ. Ожегова знание определяется как «постижение действительности сознанием» и «совокупность сведений, по­ знаний в какой-нибудь области». Интерпретация знаний как «совокупности сведений, образующих целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т. д.» дана в [10]. Там же приведены толкования следующих разновидностей знаний: декларативных, прагматических, процедурных, эвристических, экс­ пертных, знаний о ПрО.

Указанные трактовки знаний позволяют выделить две их характери­ стики: объектность и личностность.

Объектные знания связаны с представлением конкретного объекта или класса объектов (вещей, процессов, явлений и т. п.). Метазнания напро­ тив описывают систему наиболее общих понятий, принципов и закономер­ ностей природы, общества и мышления.

В личностном аспекте знания ассоциируются с их носителями, т. е. теми, кто ими обладает: конкретным человеком, группой людей или искус­ ственным источником знаний (книгой, учебным курсом, видеофильмом и проч.) Носителем обезличенного или социального знания является социум. Поскольку личностные знания субъективны, для их адекватной интерпрета­ ции необходимо учитывать точку зрения (мировоззрение, взгляды, привыч­ ки) носителя. В случае существования множества носителей знаний важное значение имеют особенности жизненного уклада людей, специфика их про­ фессиональной деятельности и т. п.

Для специалистов в области ИИ при анализе категории знания харак­ терно акцентирование внимания на формально-логических аспектах рассматриваемьсс вопросов. Сказанное иллюстрируют трактовки знаний как формализованной информации, на которую ссьшаются или используют в процессе логического вывода [9], и хранимой (в ЭВМ) информации, форма­ лизованной в соответствии с определенными структурными правилами, ко-

Ожегов СИ, Словарь русского языка / Под ред. Н.Ю.Шведовой.— М.: Рус. яз., 1986.

136

5.7. Категория знания

Трактовки знаний

психологическая: психические образы, мысленные модели

интеллектуальная:

совокупность сведений о некоторой ПрО, включающих факты об объектах данной Про, свойствах этих объектов и связывающих их отношениях, описания процессов, протекающих в данной ПрО, а также информацию о способах решения типовых (в рамках этой ПрО) задач

формально-логическая:

формализованная информация о некоторой ПрО, используемая для получения (вывода) новьгх знаний об этой ПрО с помощью специализированных процедур

информационно-технологическая: структурированная информация, хранящаяся в памяти ЭВМ

и используемая при работе интеллектуальных программ

Рис. 5.1. Трактовки знаний

торую ЭВМ может автономно использовать при решении проблем по таким алгоритмам, как логические выводы [138]. Заметим, что оба определения раскрывают знания в плане их практического применения.

Несколько иное понимание знаний присуще психологам. С их точки зрения знания представляют собой психические образы — восприятия, па­ мяти, мышления, в качестве которых выступают образы предметов и явле­ ний внешнего мира, образы различных действий человека и т. д. Часто зна­ ния рассматриваются и как динамические мысленные модели предметов, явлений, их свойств и отношений. В психологическом плане знания сущест­ вуют в формах чувственных моделей, моделей-изображений (зрительных образов) и знаковых моделей.

Упомянутые выше трактовки знаний могут быть объединены в четыре группы (или уровня): психологическую, интеллектуальную, формально­ логическую и информационно-технологическую (рис. 5.1). Ясно, что на первом уровне со знаниями оперируют психологи. Второй и третий уровни соответствуют интерпретациям данной категории специалистами в области ИИ и логиками. Наконец, четвертый уровень близок к пониманию знаний прагматиками-программистами и разработчиками информационных систем.

Ряд аспектов классификации знаний иллюстрирует рис. 5.2.

Как видим, в зависимости от источника знаний выделяются априор­ ные и накапливаемые знания. Первый вид знаний определяется и закладыва­ ется в БЗ до начала функционирования включающей эту БЗ интеллектуаль­ ной системы. Кроме того, при работе с БЗ достоверность содержащихся в

137

5. Моделирование знаний о предметных областях

Знания

в зависимости от источника

априорные

накапливаемые

в зависимости от характера использования при решении задач в некоторой ПрО

в зависимости от степени достоверности

в зависимости от глубины М

экспертные

наблюдаемые

выводимые

декларативные

(факты)

процедурные

метазнания

имеющие определенную достоверность

знания с нечеткой степенью достоверности

знания-копии

знания-знакомства

умения

навыки

Рис. 5.2. Классификация знаний

ней априорных знаний не переоценивается. В отличие от априорных, мно­ жество накапливаемых знаний формируется в процессе использования БЗ. Источниками этих знаний могут быть эксперты, внешние искусственные «устройства-наблюдатели» (различного рода датчики, механизмы распозна­ вания образов и т. п.), а также правила и процедуры вывода и верификации знаний, действующие в рамках интеллектуальной системы.

Широко распространенным аспектом классификации знаний является их деление на декларативные (факты, сведения описательного характера), процедурные (информация о способах решения типовых задач в некоторой ПрО) и метазнания. Метазнания чаще всего определяются как «знания о знаниях» и содержат общие сведения о принципах использования знаний. К уровню метазнаний также относят стратегии управления выбором и приме­ нением процедурных знаний.

138

5.1.Категория знания

Воснове деления знаний в зависимости от степени их достоверности лежат так называемые не-факторы, присущие знаниям [131]: неполнота информации о рассматриваемом фрагменте ПрО, неточность количествен­ ных и размытость качественных оценок, неоднозначность ряда правил вы­ вода новых знаний, несогласованность некоторых положений в БЗ и пр. Один из способов учета подобных не-факторов при формализации знаний состоит в использовании аппарата теории нечетких множеств. Примерами декларативных и процедурных знаний, имеющих определенную степень достоверности, могут служить утверждения: «Следующим днем календаря после 31 мая является 1 июня» и «Для кипячения воды при нормальном дав­ лении требуется ее нагрев до 100 °С». Знания с нечеткой степенью досто­ верности содержатся в суждениях: «Завтра в Москве будет дождь» и «При игре в шахматы не следует располагать коня на краю доски».

Кклассу процедурных знаний с нечеткой степенью достоверности от­ носятся эвристики, описывающие приемы решения задач, базирующиеся на опыте экспертов в данной ПрО. Понятия эвристических правил, приемов и методов являются ключевыми в теории творческой деятельности и креатив­ ной педагогике [122, 132, 142]. Типичным примером эвристического прави­ ла может служить приведенная выше рекомендация о расположении коня на шахматной доске.

Субъективность эвристик обусловлена отражением в них особенностей представления ПрО и анализа проблемных ситуаций в этой ПрО человеком. Отсюда же следует правдоподобный характер большинства эвристических методов. На практике эвристики широко используются в ИАС и, в частности, ЭС, причем обычно их применение направлено на оптимизацию поисковых процедур и сокращение перебора релевантных вариантов решения задач. Вместе с тем, выявление некоторой эвристической закономерности и включе­ ние соответствующих ей правил в БЗ ЭС разделяет значительное «расстоя­ ние». Для его преодоления эксперту по ПрО и инженеру по знаниям необхо­ димо выполнить следующие четыре этапа. Во-первых, эксперт должен сфор­ мулировать (описать) эвристический прием. Если учесть, что многие эвристики используются специалистами интуитивно, т. е. на подсознательном уровне, названная задача не покажется такой уж тривиальной. Во-вторых, требуется исследовать сферу применения выделенной эвристики и указать логическое условие ее активации в БЗ. Данное условие определяет события, при которых связанное с эвристикой правило начнет выполняться. В-третьих, следует формализовать само эвристическое правило, представив его с помо­ щью выбранного языка описания знаний. Наконец, в-четвертых, необходимо оценить степень правдоподобия закладываемой в БЗ эвристики.

С точки зрения меры возможной формализации различают три группы эвристических методов [142]: полностью формализованные — алгоритмы;

139