Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_po_IS_2001-2002.doc
Скачиваний:
174
Добавлен:
13.04.2015
Размер:
3.13 Mб
Скачать

Системы интеллектуальных поисковых агентов

Сегодня в развитии систем поиска и обработки Интернет-ресурсов наметился явный сдвиг в сторону использования средств ИИ, в частности представления знаний и вывода на знаниях, интеллектуальных механизмов обучения, анализа естественно-языковых текстов и некоторых других.

Как правило, системы интеллектуального поиска разрабатываются либо в серь­езных фирмах, владеющих технологиями разработки идеализации интеллектуальных агентов, либо в исследовательских лабораториях университетов. Спра­ведливости ради следует заметить, что коммерческие версии таких систем часто декларируют больше, чем реализовано в действительности, а исследовательские разработки обычно существуют в виде демонстрационных версий с ограниченными возможностями, хотя в теоретическом плане последние интереснее.

Для конкретизации дальнейшего изложения остановимся сначала более подроб­но на нескольких, интересных на наш взгляд, коммерческих системах интеллек­туального поиска и обработки информации в сети Интернет, а завершим обсуж­дение рассмотрением нескольких исследовательских проектов в этой области, использующих онтологии.

Система marri

Система MARRIразработана для поиска Web-страниц, релевантных запросам в определенной предметной области. Для решения поставленных задач система использует знания, представленные в виде онтологии, которая в данном случае понимается как множество концептов и связей между ними. Ба­зисное предположение разработчиков состоит в том, что релевантные тексты со­стоят из значимых для предметной области предложений, содержащих фрагмен­ты, «сопоставимые» с онтологией предметной области. Предполагается, что одни агенты — агенты сети — для предварительного отбора используют стандартные машины поиска, а другие — специализированные агенты — осуществляют поверхностный анализ полученных Web-страниц, затем проверяют их на соответствие так называемому онтологическому тесту и возвращают пользователю лишь те страницы, которые успешно прошли данный тест.

Суть онтологического теста состоит в следующем. Сначала осуществляется мор­фологический и синтаксический анализ предложений полученного от агентов сети текста и строится его синтаксическое дерево; затем осуществляется определение типа предложения (утвердительное, отрицательное и т. п.) и тип речевого акта, который это предложение отражает. Для дальнейшего анализа выбираются только простые утвердительные предложения со структурой NPVPNP, гдеNP— именная группа, а VP — глагольная группа. При этом неявно предполагается, что структура знаний о предметной области отражена в структуре предложений, описывающих концепты. Поэтому, если анализируемое предложение действи­тельно описывает некоторый концепт, значимые для предметной области слова уже присутствуют в онтологии.

С учетом всего вышесказанного онтологический тест выполняется следующим образом:

• существительные (или, в общем случае, именные группы) отображаются на концепты Онтологии, а глаголы (или, в общем случае, глагольные группы) — на роли;

• в глагольной группе выделяется для дальнейшей обработки основной глагол (V). Если он отсутствует в онтологии, тест возвращает «неудачу», иначе:

• в левой «верхней» именной группе выделяется базисное существительное (N) Если оно отсутствует в онтологии, тест возвращает «неудачу», иначе:

• проверяется ограничение (семантическое отношение) Sмежду N и V. При этом возможны следующие варианты:

• N и V действительно связаны отношением S, которое представлено в онто­логии;

• онтологии отношением S связаны существительное N’ глаголV’ причемN' является подклассомN,aV’ —подклассом V;

• если же предыдущие два варианта не имеют места, тест возвращает «неуда­чу»;

• аналогичная процедура выполняется и для правой «верхней» именной группы.

Таким образом онтологический тест в случае успеха позволяет «наложить» анализируемый текст на онтологию предметной области.

Архитектурно система MARRI(рис. 17.2) является сетью специализированных агентов четырех типов: агент пользователя (UserAgent), агент-брокер (BrokerAgent), агент сети (ConnectionAgent) и агент обработки текста (TextProcessingAgent). Каждый из агентов обладает следующими свойствами:

• это автономная Java-программа с собственным сетевым адресом (URL);

• он взаимодействует с Другими агентами с помощью языка ACL(AgentCommunicationLanguage), функционирующего над HTTP-протоколом;

• агент является потребителем и поставщиком информации, в зависимости от ' того, с какими агентами системы он общается;

• он может взаимодействовать с автономными программными компонентами — такими как, например, Web-броузеры, анализаторы ЕЯ или онтологические БД;

• агент обладает специальными знаниями и возможностями вывода для оп­ределения того, доступна ли нужная Web-страница, содержит ли она текстовую информацию и релевантна ли эта информация определенной предметной области.

Интерфейсный агент (ИА) поддерживает интеллектуальное взаимодействие с пользователем. Он ассистирует при формулировке запросов и представляет ре­зультаты поиска в виде списка релевантных URL или Web-страниц. Когда поль­зователь выбирает, интересующую его предметную область, ИА запрашивает со­ответствующую онтологию из онтологической БД, а также информирует других агентов .сети о том, какая онтология будет использоваться.

Рис. 17.2. Архитектура системы MARRI.

Задачей агента сети (АС) является подключение к заданной URLWeb-странице, ее считывание и анализ. В силу того, что нужная страница может быть недоступна или неинтересна по содержанию, АС должен суметь» обрабатывать исключи­тельные ситуации, а также анализировать собственно текст, представлен­ный на считанной странице.

В системе MARRIзадействованы два типа агентов-брокеров: брокерURLи бро­керHTMLПервые предназначены для «сопровождения» списков Интернет-ад­ресов, поставляемых броузером, а вторые — для запоминания полученных Web-страниц и распределения их между агентами обработки текста (АОТ) для дальнейшего анализа.

Целью функционирования АОТ является семантический анализ Web-страниц для проверки их релевантности на базе соответствующей онтологии. Предвари­тельно эти же агенты преобразуют HTML-текст к определенному структурному представлению, с которым работают морфологический и синтаксический ана­лизаторы. Результат обработки текста представляется в виде синтаксического дерева, которое должно отождествиться с определенным фрагментом используе­мой онтологии.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]