Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

инфа в тех универе

.pdf
Скачиваний:
24
Добавлен:
30.05.2015
Размер:
8.73 Mб
Скачать

3.Автоматизация работы со знаниями, представленными в текстовом виде

поиск «сверху» (по оглавлению с аннотациями глав и, возможно, менее крупных разделов);

поиск «снизу» (с помощью различных указателей);

поиск с помощью гипертекстовых связей (перекрестных ссылок);

полнотекстовый поиск путем просмотра всего текста.

Компьютерные методы поиска реализуются в ИПС, БД, БЗ и поиско­ вых машинах Internet.

В информационно-поисковых системах применяются следующие ме­ тоды поиска:

1)индексирование текстов и поиск по ключевым словам (по индексу);

2)поиск, включающий морфологический разбор и отождествление различных грамматических форм слов;

3)поиск с ранжированием документов по степени релевантности за­

просу;

4)использование формальных поисковых языков;

5)комплексные методы.

Втехнологиях БД и БЗ наряду с перечисленными применяются сле­ дующие методы поиска:

использование формальных языков запросов, позволяющих описы­ вать условия совместного вхождения ключевых слов в документ (это на­ правление представляют SQL-подобные языки);

методы семантического анализа текста.

Средства автоматического извлечения знаний из текстовых ресурсов Internet реализуются в поисковых машинах. При этом различают:

1)методы итеративного поиска;

2)методы поиска по выборке;

3)методы, использующие каталоги (рубрикаторы и классификаторы, организующие множество документов в деревья или лес);

4)семантические методы поиска, использующие подходы ИИ. Создание средств построения и выполнения запросов на ЕЯ является

серьезной проблемой. К числу подобных поисковых механизмов, например, относятся:

средства, реализующие поиск типа «где»;

средства поиска особых контекстных явлений;

средства выполнения фактографических запросов и др.

Среди интеллектуального поискового инструментария для WWW сле­ дует упомянуть утилиту Echo Search фирмы Iconovex Соф. Она написана на языке Java и работает на базе платформ Windows и Macintosh. Эта утилита избавляет пользователя от необходимости разбираться в результатах поиска: она анализирует содержимое web-серверов, найденное несколькими средст­ вами поиска (используются шесть популярных поисковых машин), и затем

70

3.2. Автоматизированное извлечение знаний из текста

формирует описания исследованных узлов. Утилита Echo Search создает текстовые копии страниц, соответствующих ключу поиска, и записывает их на жесткий диск. Проводя лингвистический анализ содержимого этих стра­ ниц, Echo Search автоматически генерирует указатель, кратко представляю­ щий содержание каждой страницы.

Internet растет взрывообразно, поэтому вероятность наличия в нем не­ обходимой информации постоянно увеличивается. Для поиска информации

вInternet служат различные классы поисковых средств:

каталоги (directories);

подборки ссылок (bookmarks);

поисковые машины (search engines);

БД адресов электронной почты (email addresses databases);

средства поиска в архивах Gopher (Gopher archives);

системы поиска файлов (FTP search);

системы поиска новостей (usenet news).

Каталог ресурсов Internet — постоянно обновляемая и пополняемая система ссылок на ресурсы, распределенные по иерархической структуре категорий. На верхнем уровне каталога представлены самые общие катего­ рии (рубрики), например, «наука», «бизнес», «развлечения» и т. д. На ниже­ лежащих уровнях эти рубрики декомпозируются на подчиненные рубрики, имеющие более частный характер. Например, верхний уровень каталога mail.ru содержит рубрики: «Автомобили», «Бизнес и финансы», «Вокруг света», «Государство российское», «Домашний очаг», «Интернет», «Компь­ ютеры», «Культура/Искусство», «Медицина и здоровье», «Непознанное», «Образование/Наука», «Отдых», «Работа и заработок», «СМИ», «Спорт», «Справки», «Товары и услуги», «Юмор».

На нижнем уровне каталога указываются ссылки на конкретные ре­ сурсы Internet (сайты и web-страницы), снабженные краткими описаниями их содержимого.

Каталоги ресурсов Internet незаменимы, когда человек имеет недоста­ точно точное представление о цели поиска. Некоторые из них позволяют выполнять поиск по ключевым словам в кратком описании содержимого ресурсов.

Каталоги облегчают поиск за счет упорядоченности ссылок на ресур­ сы. Все интеллектуальные функции остаются за человеком. То же можно сказать о подборках ссылок на информационные ресурсы Internet. Такие подборки представляют собой отсортированные по темам адреса ресурсов.

Формирование и актуализация каталогов и подборок ссылок выпол­ няются вручную персоналом соответствующих ИС. Подобная работа требу­ ет высокой квалификации и достаточно трудоемка.

Ниже перечислены некоторые универсальные каталоги ресурсов Intemet:

71

3.Автоматизация работы со знаниями, представленными в текстовом виде

Yahoo! (http://www.yahoo.com);

MSN (http://search.msn.com);

AOL (http://search.aol.com);

About (http://www.about.com);

Search (http://www.search.com);

Япёех (http://www.yandex.ru);

Rambler (http://www.rambler.ru);

Апорт (http://www.aport.ru);

Город-ОК! (http://link.cid.ru);

• Пингвин (http://www.able.ru) и др.

Наряду с универсальными существуют и специализированные ката­ логи, систематизирующие сведения о ресурсах Internet, имеющих опреде­ ленную тематическую направленность. Например:

каталог общественных ресурсов Интернет (некоммерческих и об­ щественных организаций, средств массовой информации, электронных биб­ лиотек и изданий, БД, ИС, Intemet-проектов и т. д.; http://www.ngo.ru);

каталог вузов России (http://www.5ballov.ru/universities);

каталог образовательных сайтов (http://www.allbest.ru).

Поисковые машины (или поисковые системы) позволяют находить ресурсы Internet непосредственно по их текстовому содержимому. Функ­ ционирование поисковой машины включает два базовых процесса: 1) ин­ дексирование ресурсов Internet (автоматическое построение и обновление индекса); 2) поиск по индексу по запросам пользователей.

В Международном каталоге поисковых машин (Search Engine Colossus — http://www.searchenginecolossus.com) зарегистрировано свыше 2300 систем из 232 стран. По данным этого каталога более 80 % пользователей Internet находят информационные ресурсы с помощью поисковых машин, 57 % пользователей ежедневно применяют поисковые машины, каждый день вы­ полняется до 450 млн поисковых запросов, поисковые машины служат ис­ точником сведений для 55 % всех покупок в on-line.

К наиболее известным поисковым машинам относятся:

AltaVista (http://www.altavista.com);

Excite (http://www.excite.com);

HotBot (http://www.hotbot.com);

Lycos (http://www.lycos.com);

Yahoo! (http://www.yahoo.com);

AOL (http://search.aol.com);

MSN (http://search.msn.com);

Infoseek (http://infoseek.go.com);

Google (http://www.google.com.ru);

About (http://www.about.com);

Search (http://www.search.com);

72

3.2. Автоматизированное извлечение

знаний из текста

 

 

Поисковая машина Internet

 

Массив заявок

Программные агенты,

 

 

на индексиро­

Индекс

индексирующие

вание (адресов

web-страницы

 

 

web-сайтов)

 

 

 

 

 

добавляемый

 

 

 

адрес

 

 

 

Блок

^

Программа

приема заявок

поиска

 

 

 

 

 

Запрос

Результаты

Internet

\УеЪ-страшщы

Internet

 

 

 

Запрос

Результаты

Страница

 

Страница формирования

формирования заявки

 

запроса на поиск и пред­

на индексирование

 

ставления результатов

Браузер

 

Браузер

 

Рис. 3.10. Упрощенная структура типовой поисковой машины

Dogpile (http://www.dogpile.com);

Япёех (http://www.yandex.ru);

Rambler (http://www.rambler.ru);

Апорт (http://www.aport.ru);

Rundex (http://www.rundex.ru).

Следует отметить, что многие поисковые машины включают и катало­ ги ресурсов Internet.

Упрощенная структура типовой поисковой машины показана на рис. 3.10. Ее главными компонентами являются:

программный агент, «перемещающийся» по сети и индексирующий ресурсы (web-страницы);

БД (индекс), содержащая информацию, собираемую агентом;

программа поиска, применяемая пользователями для поиска ин­ формации в БД.

73

3. Автоматизация работы со знаниями, представленными в текстовом виде

На этапе индексирования поисковые машины реализуют следующий

примерный алгоритм работы.

1. Адреса web-узлов, включаемые в обрабатываемую область, опреде­ ляются по гиперссылкам, ведущим из страниц данного web-узла. При этом используются различные модификации волнового алгоритма (например, с вычислением профилей узлов).

2.Агент либо переходит к индексированию очередного web-узла из сформированного списка, либо выполняет так называемое зеркалирование (дублирование) его содержимого на свой web-узел.

3.Производится собственно индексирование. Оно может быть полно­ текстовым (обрабатывается весь текст) и неполнотекстовым (обрабатывают­ ся наиболее значимые части текста: заголовки, названия, ключевые поля, начальные слова разделов и т. д.).

4.Полученные данные о ключевых словах добавляются в БД.

5.Если был сделан зеркальный дубль, он стирается.

6.Пункты 2—5 повторяются для каждого адреса, полученного в п. 1. Изложенный алгоритм соответствует некоторой канонической струк­

туре поисковой машины. Конкретные их реализации различаются по мно­ гим параметрам:

поддержке простого и сложного поиска;

учету различий строчных и прописных символов;

возможности поиска по частям слов и словосочетаниям;

поддержке обработки запросов, содержащих логические операторы И, ИЛИ, НЕ;

использованию специальных языков поиска информации, значи­ тельно сокращающих его время (к сожалению, такие языки не стандартизо­ ваны, поэтому в разных поисковых машинах реализуются разные поисковые языки).

Применение поисковых машин для поиска в Internet эффективно, если пользователь представляет, какие ключевые слова характеризуют нужные ресурсы.

Дополнительные возможности предоставляет режим расширенного поиска, в котором можно задавать правила поиска. Часто это значительно увеличивает вероятность нахождения требуемой информации.

Агент - самый интеллектуальный из компонентов поисковой машины. Он обладает автономностью, имеет блоки навигации, управляющие «пере­ мещением» по сети, и механизмы индексации, основанные на некоторой базе правил. Агенты реализуются как простые программные системы, за­ прашивающие информацию с узлов Internet. Физически по сети агенты не перемещаются. Они индексируют полученные страницы и заносят результа­ ты в БД.

74

3.2. Автоматизированное извлечение знаний из текста

Поисковые механизмы отличаются разнообразием. Некоторые агенты следуют по каждой ссылке на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на новой странице и т. д. Как правило, агенты игнорируют ссылки к графическим и мультимедийным файлам, фай­ лам с данными (например, архивам), БД и др. Ряд агентов просматривают страницы с учетом их популярности.

Одной из проблем является реализация алгоритма перемещения (на­ вигации) по сети. Учитывая, что большинство web-серверов организовано иерархически, перемещение вширь по ссылкам от исходной вершины при ограниченной глубине вложенности с большей вероятностью приводит к нахождению документов с высоким уровнем релевантности, чем при пере­ мещении в глубину. Поскольку это подтверждается статистикой работы по­ исковых машин, данный метод (сначала вширь, затем вглубь) принят как предпочтительный для индексирования web-ресурсов.

Разновидностями агентов являются кроулеры, «роботы» и «пауки». Кроулеры (crawlers) просматривают заголовки страниц и возвращают поис­ ковой машине только первую найденную ссылку. «Роботы>> проходят по ссылкам различной глубины и вложенности. «Пауки» (spiders) сообщают о содержании найденного документа, индексируют его и пересылают извле­ ченную информацию в БД поисковой машины.

Системой правил для всего этого сообщества автономных программ управляют администраторы поисковых машин. Они же устанавливают па­ раметры алгоритмов определения степени релевантности документа и за­ проса. Обычно в этих алгоритмах учитываются:

количество слов запроса в текстовом содержимом документа (т. е. в HTML-коде);

теги, в которых эти слова встречаются;

местоположение искомых слов в документе;

удельный вес слов, относительно которых определяется релевант­ ность, в общем количестве слов документа;

время существования web-сайта;

индекс цитируемости web-сайта и др.

Средством полнотекстового поиска, ориентированным на локальные информационные массивы и корпоративные сети, служит интеллектуаль­ ная система «Следопыт» (разработчик — компания «МедиаЛингва»; http://www.sledopyt.ru). Она позволяет сформировать дерево областей поис­ ка в виде иерархии папок с документами. Для каждой области может быть построен отдельный индекс.

Система обрабатывает документы в форматах DOC, DOT, RTF, XLS, PPT, TXT, HTML и PDF, документы данных форматов в ZIP-архивах, сооб­ щения электронной почты Microsoft Outlook, а также вложения в эти сооб-

75

5. Автоматизация работы со знаниями, представленными в текстовом виде

щения в перечисленных форматах (в том числе в ZIP-архивах). При индек­ сировании учитывается морфология русского и английского языков. Преду­ смотрена возможность автоматического обновления индексов.

«Следопыт» ведет поиск как по содержимому, так и по атрибутам до­ кументов. Запрос представляется в виде фразы на ЕЯ либо выражается на формальном языке с использованием логических операторов. В запрос мо­ гут одновременно входить термины русского и английского языков.

Другие примеры реализации функций интеллектуального поиска в корпоративных ИС описаны в § 3.6 и § 7.3.

Основные выводы

1. Возможности поисковых машин Internet в целом аналогичны поис­ ковым возможностям ГИПС. Отличие заключается в колоссальных размерах сети и пространственной распределенности ее узлов, а также параллельно­ сти процессов поиска. Основа функционирования этих систем одна и та же: гипертекстовые связи, ключевые слова, критерии смыслового соответствия, активная роль человека в управлении их формой и в оценке релевантности результатов поиска запросу.

2.Поисковые системы, использующие базы правил, имеют тенденцию

кперерастанию в специализированные ЭС.

3.Фундаментальной проблемой является создание методов понимания текста. Очевидно, что ее решение обеспечило бы основу для реализации эффективных средств извлечения знаний из естественно-языкового текста и полнотекстового поиска.

4.К сожалению, еш,е длительное время методы автоматического ин­ дексирования документов будут давать худшие по качеству результаты по сравнению с их индексированием авторами. Для повышения эффективности

икачества индексирования к документам добавляют метаданные, представ­ ляющие общую характеристику их семантики. В частности, язык HTML по­ зволяет вводить в документ ограниченный набор метаданных. Более эффек­ тивные решения связаны с использованием языка XML. Об этом пойдет речь в гл. 4.

Вопросы для самопроверки

1.В чем состоит проблема понимания текста на ЕЯ?

2.Каковы основные задачи морфологического и синтаксического анализа текста на ЕЯ?

3.Каковы основные задачи семантического анализа текста на ЕЯ?

4.Сколько уровней понимания естественно-языкового текста выделяют в ИАС? Охарактеризуйте эти уровни.

76

3.3.Автоматическое реферирование и аннотирование

5.Назовите основные методы поиска в тексте, используемые в ИПС, технологиях БД и БЗ, Internet.

6.Что такое каталоги ресурсов Internet?

7.Какие основные компоненты включает типовая поисковая машина Internet и каков алгоритм ее работы?

8.Какие факторы могут учитываться поисковой машиной Internet при определе­ нии степени релевантности документа и запроса?

3.3.Автоматическое реферирование и аннотирование

Всякое слово уэюе обобщает. И.Н. Горелов

Рефератом называют:

доклад на определенную тему, включающий обзор соответствующих литературных и других источников;

изложение содержания научной работы, книги и т. д.

Далее будем опираться на вторую трактовку.

Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографиче­ ского описания источника.

Аннотацию от реферата отличают:

существенно меньший объем;

обязательная констатация назначения аннотируемого произведения (для каких категорий читателей оно предназначено).

Автоматические реферирование и аннотирование получили значи­ тельную актуальность в связи с развитием Internet и каталогов информаци­ онных ресурсов. Для экономии времени поиска пользователям предлагают­ ся каталоги аннотаций и рефератов источников.

Формирование рефератов и аннотаций вручную требует колоссальных человеческих ресурсов, поэтому и возникла задача создания методов авто­ матического реферирования и аннотирования.

Автоматическое реферирование и аннотирование — одно из направ­ лений компьютерной обработки естественно-языковых текстов . И в этом качестве оно относится к фундаментальным технологиям ИИ.

Основные тенденции для данной области:

Содержание параграфа соответствует направлению исследований в области ИИ 1.4.3.

Системы, обрабатывающие тексты на ЕЯ, в зарубежной литературе назы­ вают NLP-системами (natural language processing).

77

3.Автоматизация работы со знаниями, представленными в текстовом виде

аннотированные каталоги перерастают в гипертекстовые (с их ми­ нусами и плюсами);

на всех крупных сайтах Internet предусматривают оглавления (карта сайта — sitemap) и функции поиска по сайту;

использование онтологических словарей-тезаурусов общего и спе­ циализированного назначения, а также методов ИИ.

Потребности в средствах автоматического реферирования и аннотиро­ вания испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационнобиблиотечные системы; каналы вещания; службы рассылки новостей и др.

Методы автоматического реферирования и аннотирования подразде­ ляются на поверхностные и глубинные.

Поверхностные методы базируются на «экстрагировании» текста, т. е. извлечении из него фрагментов, оцениваемых системой как важнейшие, и объединении их в реферат или аннотацию. Важность фрагментов опреде­ ляется:

по маркерам важности (оборотам типа «идея ... состоит в...», «главным результатом ... является...», «в заключении нужно сказать, что...» и т. д.);

по количеству заданных в запросе ключевых слов, входящих во фрагмент, и др.

При объединении выделенных предложений в реферат или аннотацию учитываются их зависимости друг от друга (удаленность выделяемых мыс­ лей). «Стыки» между предложениями (фрагментами) «сглаживаются».

Глубинные методы, развиваемые в настоящее время, базируются на применении тезаурусов и развитых механизмов синтаксического разбора текста.

К традиционным системам автоматического реферирования и анноти­ рования, реализующим поверхностные методы, можно отнести:

Microsoft Word (начиная с версии 7 имеется функция автоматиче­ ского реферирования);

ОРФО 5.0 (разработчик — компания «Информатик»), включающую функцию автоматического аннотирования русских текстов;

«Либретто» (разработчик — компания «МедиаЛикгва»), обеспечи­ вающую автоматическое реферирование и аннотирование русских и англий­ ских текстов (система встраивается в Word);

пакет «МедиаЛингва Аннотатор SDK 1.0», служащий инструмента­ рием для реализации функций автоматического реферирования и аннотиро­ вания в прикладных ИАС;

поисковую систему «Следопыт», включающую средства автомати­ ческого реферирования и аннотирования документов;

78

3.3.Автоматическое реферирование и аннотирование

поисковую машину «Золотой Ключик» компании Textar, обеспечи­ вающую составление рефератов и аннотаций;

Intelligent Text Miner (IBM);

Oracle Context;

программные компоненты для разработки систем управления зна­ ниями Inxight Summarizer фирмы Inxight Software, Inc.

Перечисленные средства обеспечивают выбор оригинальных фраг­ ментов из исходных документов и соединение их в короткий текст.

Сделаем два замечания. Во-первых, источниками информации для ре­ фератов и аннотаций могут служить не только тексты, но и видеозаписи, разнообразные табличные документы и т. д. Во-вторых, краткое изложение предполагает передачу основной мысли не обязательно теми же словами.

Основные требования к реферату.

сжатие (объем реферата должен составлять от 5 до 30 % от объема исходного документа);

возможность использования нескольких источников;

выражение всех основных мыслей оригинала.

Выделяют три вида рефератов:

1) повествовательные, формирующие общее представление об источ­

нике;

2)информационные, заменяющие источник (содержат основную или новую фактическую информацию);

3)критические (обзоры), отражающие не только суть источника, но и мнение о нем (т. е. содержащие дополнительные выводы, которых нет в оригинале).

Построение реферата человеком включает следующие этапы:

анализ источника;

выделение в источнике наиболее важных и информативных фраг­

ментов;

формирование выводов.

В теории автоматического реферирования различают три основных подхода [65]. Первый из них не предполагает опору на знания, связанные с текстом на ЕЯ. В системах такого типа применяется универсальная база правил, не зависящая от ПрО и языка текста. Второй подход предусматри­ вает выделение различных уровней понимания текста, что требует исполь­ зования наряду с универсальными правилами БЗ о ПрО и базы лингвистиче­ ских правил, зависящих от языка. Третий подход является гибридным. Он сочетает лучшие стороны первых двух.

В системах первого типа (т. е. воплощающих первый подход) приме­ няется метод составления выдерлсек. Он реализуется в два этапа. На пер­ вом проводится сопоставление текста и фразовых шаблонов, в результате

79