Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции и вопросы Интеллектуальные ИС (2010, акк....doc
Скачиваний:
50
Добавлен:
11.12.2018
Размер:
954.37 Кб
Скачать

Раздел 5. Интеллектуальные информационно-поисковые системы

5.1. Интеллектуальные информационно-поисковые системы (ипс). Иипс в сети Интернет

Одним из перспективных направлений применения ИИ в прикладных задачах служит разработка интеллектуальных информационно-поисковых систем (ИИПС). В первую очередь для работы в сети Интернет.

Огромные объемы хранимой информации, разнообразная форма подачи одного и того же материала, различные степени релевантности запросу – все это делает задачу поиска в больших хранилищах данных весьма и весьма актуальной.

Первые системы поиска были достаточно просты. Это был простой поиск подстроки в строке (группы символов в файле), с которым мы сегодня встречаемся, пожалуй, в любом текстовом редакторе. Более развитые средства поиска появились в составе систем управления базами данных, где искать приходилось уже не просто подстроку, а запись с нужными значениями в заданных полях. Появились запросы с логическими связками И, ИЛИ, НЕ, обрабатывающие не только текстовую, но также и числовую информацию. Легко можно представить себе запросы по поиску изображений (например, фото определенного человека в банке фотографий), звуков (поиск мелодии по ее фрагменту) и т.п.

Модели поиска. На сегодня можно выделить несколько подходов к поиску.

1. Поиск по подстроке. Это традиционный поиск подстроки в строке, когда информация считается найденной, если в файле встретилось сочетание символов, в точности соответствующее строке запроса. Далее пользователю предоставляется для просмотра найденное место в файле (обычно текстовом) и он принимает решение об окончании или продолжении поиска. Регистр букв в этом поиске может по желанию пользователя учитываться, а может и нет. Например поиск слова «мыла» во фразе «Мама мыла раму» укажет второе слово. Применяется для поиска информации в отдельном файле или группе файлов на локальном компьютере.

2. Поиск по маске. Это усложненный вариант поиска по подстроке, когда отдельные элементы подстроки заменены специальным символом, указывающим, что в этой позиции может стоять произвольный символ или произвольный символ заданного класса. Например, если знак «*» обозначает произвольный символ запрос фрагмента «*ам» укажет вначале слово «Мама», а затем, если это необходимо, слово «раму». Также применяется на локальных компьютерах.

3. Тематический поиск (на основе классификации). При таком поиске все известные поисковой машине документы разбиваются по иерархизированным каталогам (темам, классам), поддерживающим отношение включения. Классы между собой не пересекаются. Пользователь может делать запрос только по заранее сформулированным ему темам. Поиск на пересечении или объединении классов не предполагается. Не предполагается и упорядочение документов (кроме естественного  в порядке обнаружения). Подобный поиск был популярен на ранних этапах развития Интернет. В настоящее время он играет лишь вспомогательную роль (вроде ссылок на тематические рубрики «товары», «спорт», «фото» и т.д. на интернет-порталах типа mail.ru, rambler.ru и им подобных).

4. Булева модель. Запрос представляет собой высказывание, возможно с пропозициональными связками И, ИЛИ, НЕ. Пользователю предлагаются информационные единицы, для которых это высказывание истинно. Связки могут обозначаться специальным образом, например «.OR.» для ИЛИ, .AND. для И и .NOT. для НЕ, или подразумеваться. Например подряд идущие слова в запросе «книги фото товары» интерпретируется как конъюнкция «книги.AND.фото.AND.товары». Такой метод широко применяется в системах управления базами данных. Он позволяет осуществлять поиск на пересечении, объединении и теретико-множественном вычитании классов.

5. Поиск по ключевым словам. Документ описываются набором ключевых слов. При наличии их в запросе соответствующий документ предоставляется пользователю. Запрос представляет собой набор ключевых слов с пропозициональными связками. Один из наиболее старых, но до сих пор эффективных подходов к поиску в больших объемах информации.

6. Векторная модель. Документы и запросы характеризуются системой атрибутов, которые имеют веса и представляются в виде векторов. Далее степень соответствия документа запросу оценивается по степени близости соответствующих векторов друг другу.

7. Интерактивный поиск. Развитие векторной модели. В процессе поиска учитывается, какие из предложенных документов заинтересовали пользователя. После этого поисковая машина корректирует критерии и продолжает поиск.

Не все перечисленные модели применяются для работы в Интернет. Рассмотрим те, что используются.

Поиск на основе классификации. Общая схема поисковой машины представлена на рис. 3.18.

Поиск осуществляют люди, либо специальные программы-сканеры Интернета. Кроме того, возможна процедура регистрации докуменотов (сайтов) в поисковой системе самими владельцами документов.

Данная система малоэффективна при большом количестве документов: разрастается число классов, трудно поддерживать базы в актуальном состоянии. Ограничиваются и возможности составления запросов для пользователей.

Поиск по ключевым словам (наиболее распространенный). Схема работы поисковой системы представлена на рис. 3.19. Основными этапами ее работы являются:

1. Поиск документов индексирующим роботом.

2. Индексирование найденных документов.

3. Выполнение запросов пользователя.

По результатам работы индексирующего робота пополняются и корректируются база ссылок на документы и база поисковых образов документов. Базы индексируются по ключевым словам. По запросу пользователя выполняется обращение к базе индексов, которая и предлагает ему список документов.

Недостатки:

1. Слабая степень релевантности документов запросу.

2. Индексирующие роботы сильно загружают сеть.

3. Трудно поддерживать базы в актуальном состоянии.

4. Малый охват объемов Интернет (по некоторым оценкам крупная поисковая система охватывает не более 16% выложенной информации, использование 11 поисковых систем позволяет охватить до 42%  менее половины).

5. Возможность обмана для повышения рейтинга «паразитных» сайтов.

6. Большое количество документов, выдаваемых по запросу.

7. Наличие ссылок на отсутствующие документы.

Впрочем, это проблемы едва ли не всех современных поисковых систем. Перспективным направлением здесь может служить применение методов ИИ. Работу интеллектуальной (точное «интеллектуализированной») системы поиска информации можно представить в следующем виде (рис. 3.20).

Первые три позиции здесь характерных для современных поисковых машин. Последняя делает ее интеллектуализированной.

Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.

Морфологический анализ сводится к автоматическому распознаванию частей речи каждого слова текста (каждому слову ставится в соответствие лексико-грамматический класс). Качество морфологического анализа сильно зависит от языка. Например в русском языке, где развита морфология это можно сделать практически со стопроцентной точностью. Английский язык более многозначен и качество работы соответствующего анализатора оценивается в пределах девяноста процентов.

Синтаксический анализ заключатся в автоматическом выделении семантических элементов предложения - именных групп, терминологических целых, предикативных основ. Это позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

Семантический анализ заключатся в определении информативности текстовой информации и выделении информационно-логической основы текста. Проведение автоматизированного семантического анализа текста предполагает решение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости создания совершенного аппарата экспертной оценки качества информации. Именно семантический анализ текста – основа интеллектуальности ИПС.

Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления смыслового содержания информации. В настоящее время отсутствуют сложившиеся подходы к реализации задачи семантического анализа текстовой информации, что во многом обусловлено исключительной сложностью проблемы и недостаточно полной проработкой научного направления создания систем искусственного интеллекта. Поэтому существующие информационные технологии не обеспечивают эффективной реализации поисковых систем. Это обусловливает низкую адекватность найденной по запросу пользователя информации, то есть возврат системой большого объема малоинформативных документов. Проблема усугубляется низкой скоростью получения документов из Интернета, необходимостью просмотра пользователем всех найденных документов и оценки их информационного содержания в неавтоматизированном режиме, а также наличием специально создаваемых (вредоносных) информационных технологий, препятствующих эффективной реализации в поисковых системах автоматической оценки содержания найденных документов.

Методический аппарат «интеллектуального поиска» текстовой информации позволяет реализовать автоматизацию всех этапов лингвистического анализа (лексического, морфологического, синтаксического и семантического). Данная технология соединяет преимущества автоматического индексирования документов в поисковых системах с экспертной обработкой их содержания в системах искусственного интеллекта.

Реализация указанных функциональных возможностей достигается за счет:

  • углубленного лексического анализа текстовой информации, обеспечивающего подготовительную нормализацию обрабатываемого теста;

  • наличия морфологического словаря, включающего все морфологические и семантические характеристики слов, а также слова-синонимы и тематически связанные слова;

  • детального морфологического анализа, обеспечивающего определение частей речи с учетом семантики запроса пользователя и обрабатываемой текстовой информации;

  • поиска текстовой информации по синонимам и тематически связанным словам;

  • автоматизированного синтаксического анализа членов предложения и связей между ними;

  • отбора текстовой информации на основе семантического анализа ее соответствия запросу пользователя;

  • автоматической оценки релевантности предложений текстов запросу пользователя с обеспечением синтеза семантически полного ответа поисковой системы.

Считается, что интеллектуализированная ИПС будет должна следующими качествами:

  • обрабатывать запросы пользователя на естественном языке;

  • реализовывать диалог с пользователем в ходе уточнения введенного им запроса и формирования ответа системы;

  • автоматически переводить запрос пользователя с естественного языка на формализованные языки запросов поисковой системы;

  • обеспечивать поиск с учетом смыслового содержания многозначных слов;

  • учитывать синонимы и тематически связанные слова.

  • учитывать семантики запроса и синтезировать семантически полные ответы поисковой системы.

  • оценивать семантическую релевантность запросы найденным результатам.

Архитектура такой системы может выглядеть следующим образом (рис. 3.21):