Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Брянский государственный университет им. академика И.Г. Петровского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

инфа в тех универе

.pdf

Скачиваний:

Добавлен:

30.05.2015

Размер:

8.73 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 318 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

3.Автоматизация работы со знаниями, представленными в текстовом виде

•поиск «сверху» (по оглавлению с аннотациями глав и, возможно, менее крупных разделов);

•поиск «снизу» (с помощью различных указателей);

•поиск с помощью гипертекстовых связей (перекрестных ссылок);

•полнотекстовый поиск путем просмотра всего текста.

Компьютерные методы поиска реализуются в ИПС, БД, БЗ и поиско вых машинах Internet.

В информационно-поисковых системах применяются следующие ме тоды поиска:

1)индексирование текстов и поиск по ключевым словам (по индексу);

2)поиск, включающий морфологический разбор и отождествление различных грамматических форм слов;

3)поиск с ранжированием документов по степени релевантности за

просу;

4)использование формальных поисковых языков;

5)комплексные методы.

Втехнологиях БД и БЗ наряду с перечисленными применяются сле дующие методы поиска:

•использование формальных языков запросов, позволяющих описы вать условия совместного вхождения ключевых слов в документ (это на правление представляют SQL-подобные языки);

•методы семантического анализа текста.

Средства автоматического извлечения знаний из текстовых ресурсов Internet реализуются в поисковых машинах. При этом различают:

1)методы итеративного поиска;

2)методы поиска по выборке;

3)методы, использующие каталоги (рубрикаторы и классификаторы, организующие множество документов в деревья или лес);

4)семантические методы поиска, использующие подходы ИИ. Создание средств построения и выполнения запросов на ЕЯ является

серьезной проблемой. К числу подобных поисковых механизмов, например, относятся:

•средства, реализующие поиск типа «где»;

•средства поиска особых контекстных явлений;

•средства выполнения фактографических запросов и др.

Среди интеллектуального поискового инструментария для WWW сле дует упомянуть утилиту Echo Search фирмы Iconovex Соф. Она написана на языке Java и работает на базе платформ Windows и Macintosh. Эта утилита избавляет пользователя от необходимости разбираться в результатах поиска: она анализирует содержимое web-серверов, найденное несколькими средст вами поиска (используются шесть популярных поисковых машин), и затем

3.2. Автоматизированное извлечение знаний из текста

формирует описания исследованных узлов. Утилита Echo Search создает текстовые копии страниц, соответствующих ключу поиска, и записывает их на жесткий диск. Проводя лингвистический анализ содержимого этих стра ниц, Echo Search автоматически генерирует указатель, кратко представляю щий содержание каждой страницы.

Internet растет взрывообразно, поэтому вероятность наличия в нем не обходимой информации постоянно увеличивается. Для поиска информации

вInternet служат различные классы поисковых средств:

•каталоги (directories);

•подборки ссылок (bookmarks);

•поисковые машины (search engines);

•БД адресов электронной почты (email addresses databases);

•средства поиска в архивах Gopher (Gopher archives);

•системы поиска файлов (FTP search);

•системы поиска новостей (usenet news).

Каталог ресурсов Internet — постоянно обновляемая и пополняемая система ссылок на ресурсы, распределенные по иерархической структуре категорий. На верхнем уровне каталога представлены самые общие катего рии (рубрики), например, «наука», «бизнес», «развлечения» и т. д. На ниже лежащих уровнях эти рубрики декомпозируются на подчиненные рубрики, имеющие более частный характер. Например, верхний уровень каталога mail.ru содержит рубрики: «Автомобили», «Бизнес и финансы», «Вокруг света», «Государство российское», «Домашний очаг», «Интернет», «Компь ютеры», «Культура/Искусство», «Медицина и здоровье», «Непознанное», «Образование/Наука», «Отдых», «Работа и заработок», «СМИ», «Спорт», «Справки», «Товары и услуги», «Юмор».

На нижнем уровне каталога указываются ссылки на конкретные ре сурсы Internet (сайты и web-страницы), снабженные краткими описаниями их содержимого.

Каталоги ресурсов Internet незаменимы, когда человек имеет недоста точно точное представление о цели поиска. Некоторые из них позволяют выполнять поиск по ключевым словам в кратком описании содержимого ресурсов.

Каталоги облегчают поиск за счет упорядоченности ссылок на ресур сы. Все интеллектуальные функции остаются за человеком. То же можно сказать о подборках ссылок на информационные ресурсы Internet. Такие подборки представляют собой отсортированные по темам адреса ресурсов.

Формирование и актуализация каталогов и подборок ссылок выпол няются вручную персоналом соответствующих ИС. Подобная работа требу ет высокой квалификации и достаточно трудоемка.

Ниже перечислены некоторые универсальные каталоги ресурсов Intemet:

3.Автоматизация работы со знаниями, представленными в текстовом виде

•Yahoo! (http://www.yahoo.com);

•MSN (http://search.msn.com);

•AOL (http://search.aol.com);

•About (http://www.about.com);

•Search (http://www.search.com);

•Япёех (http://www.yandex.ru);

•Rambler (http://www.rambler.ru);

•Апорт (http://www.aport.ru);

•Город-ОК! (http://link.cid.ru);

• Пингвин (http://www.able.ru) и др.

Наряду с универсальными существуют и специализированные ката логи, систематизирующие сведения о ресурсах Internet, имеющих опреде ленную тематическую направленность. Например:

•каталог общественных ресурсов Интернет (некоммерческих и об щественных организаций, средств массовой информации, электронных биб лиотек и изданий, БД, ИС, Intemet-проектов и т. д.; http://www.ngo.ru);

•каталог вузов России (http://www.5ballov.ru/universities);

•каталог образовательных сайтов (http://www.allbest.ru).

Поисковые машины (или поисковые системы) позволяют находить ресурсы Internet непосредственно по их текстовому содержимому. Функ ционирование поисковой машины включает два базовых процесса: 1) ин дексирование ресурсов Internet (автоматическое построение и обновление индекса); 2) поиск по индексу по запросам пользователей.

В Международном каталоге поисковых машин (Search Engine Colossus — http://www.searchenginecolossus.com) зарегистрировано свыше 2300 систем из 232 стран. По данным этого каталога более 80 % пользователей Internet находят информационные ресурсы с помощью поисковых машин, 57 % пользователей ежедневно применяют поисковые машины, каждый день вы полняется до 450 млн поисковых запросов, поисковые машины служат ис точником сведений для 55 % всех покупок в on-line.

К наиболее известным поисковым машинам относятся:

•AltaVista (http://www.altavista.com);

•Excite (http://www.excite.com);

•HotBot (http://www.hotbot.com);

•Lycos (http://www.lycos.com);

•Yahoo! (http://www.yahoo.com);

•AOL (http://search.aol.com);

•MSN (http://search.msn.com);

•Infoseek (http://infoseek.go.com);

•Google (http://www.google.com.ru);

•About (http://www.about.com);

•Search (http://www.search.com);

3.2. Автоматизированное извлечение		знаний из текста
	Поисковая машина Internet
Массив заявок	Программные агенты,
на индексиро	Программные агенты,	Индекс
на индексиро	индексирующие	Индекс
вание (адресов	web-страницы
web-сайтов)	web-страницы
web-сайтов)
добавляемый
адрес
Блок	^	Программа
приема заявок	^	поиска
приема заявок		поиска
		Запрос	Результаты
Internet	\УеЪ-страшщы	Internet
		Запрос	Результаты
Страница		Страница формирования
формирования заявки		запроса на поиск и пред
на индексирование		ставления результатов
Браузер		Браузер

Рис. 3.10. Упрощенная структура типовой поисковой машины

•Dogpile (http://www.dogpile.com);

•Япёех (http://www.yandex.ru);

•Rambler (http://www.rambler.ru);

•Апорт (http://www.aport.ru);

•Rundex (http://www.rundex.ru).

Следует отметить, что многие поисковые машины включают и катало ги ресурсов Internet.

Упрощенная структура типовой поисковой машины показана на рис. 3.10. Ее главными компонентами являются:

•программный агент, «перемещающийся» по сети и индексирующий ресурсы (web-страницы);

•БД (индекс), содержащая информацию, собираемую агентом;

•программа поиска, применяемая пользователями для поиска ин формации в БД.

3. Автоматизация работы со знаниями, представленными в текстовом виде

На этапе индексирования поисковые машины реализуют следующий

примерный алгоритм работы.

1. Адреса web-узлов, включаемые в обрабатываемую область, опреде ляются по гиперссылкам, ведущим из страниц данного web-узла. При этом используются различные модификации волнового алгоритма (например, с вычислением профилей узлов).

2.Агент либо переходит к индексированию очередного web-узла из сформированного списка, либо выполняет так называемое зеркалирование (дублирование) его содержимого на свой web-узел.

3.Производится собственно индексирование. Оно может быть полно текстовым (обрабатывается весь текст) и неполнотекстовым (обрабатывают ся наиболее значимые части текста: заголовки, названия, ключевые поля, начальные слова разделов и т. д.).

4.Полученные данные о ключевых словах добавляются в БД.

5.Если был сделан зеркальный дубль, он стирается.

6.Пункты 2—5 повторяются для каждого адреса, полученного в п. 1. Изложенный алгоритм соответствует некоторой канонической струк

туре поисковой машины. Конкретные их реализации различаются по мно гим параметрам:

•поддержке простого и сложного поиска;

•учету различий строчных и прописных символов;

•возможности поиска по частям слов и словосочетаниям;

•поддержке обработки запросов, содержащих логические операторы И, ИЛИ, НЕ;

•использованию специальных языков поиска информации, значи тельно сокращающих его время (к сожалению, такие языки не стандартизо ваны, поэтому в разных поисковых машинах реализуются разные поисковые языки).

Применение поисковых машин для поиска в Internet эффективно, если пользователь представляет, какие ключевые слова характеризуют нужные ресурсы.

Дополнительные возможности предоставляет режим расширенного поиска, в котором можно задавать правила поиска. Часто это значительно увеличивает вероятность нахождения требуемой информации.

Агент - самый интеллектуальный из компонентов поисковой машины. Он обладает автономностью, имеет блоки навигации, управляющие «пере мещением» по сети, и механизмы индексации, основанные на некоторой базе правил. Агенты реализуются как простые программные системы, за прашивающие информацию с узлов Internet. Физически по сети агенты не перемещаются. Они индексируют полученные страницы и заносят результа ты в БД.

3.2. Автоматизированное извлечение знаний из текста

Поисковые механизмы отличаются разнообразием. Некоторые агенты следуют по каждой ссылке на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на новой странице и т. д. Как правило, агенты игнорируют ссылки к графическим и мультимедийным файлам, фай лам с данными (например, архивам), БД и др. Ряд агентов просматривают страницы с учетом их популярности.

Одной из проблем является реализация алгоритма перемещения (на вигации) по сети. Учитывая, что большинство web-серверов организовано иерархически, перемещение вширь по ссылкам от исходной вершины при ограниченной глубине вложенности с большей вероятностью приводит к нахождению документов с высоким уровнем релевантности, чем при пере мещении в глубину. Поскольку это подтверждается статистикой работы по исковых машин, данный метод (сначала вширь, затем вглубь) принят как предпочтительный для индексирования web-ресурсов.

Разновидностями агентов являются кроулеры, «роботы» и «пауки». Кроулеры (crawlers) просматривают заголовки страниц и возвращают поис ковой машине только первую найденную ссылку. «Роботы>> проходят по ссылкам различной глубины и вложенности. «Пауки» (spiders) сообщают о содержании найденного документа, индексируют его и пересылают извле ченную информацию в БД поисковой машины.

Системой правил для всего этого сообщества автономных программ управляют администраторы поисковых машин. Они же устанавливают па раметры алгоритмов определения степени релевантности документа и за проса. Обычно в этих алгоритмах учитываются:

•количество слов запроса в текстовом содержимом документа (т. е. в HTML-коде);

•теги, в которых эти слова встречаются;

•местоположение искомых слов в документе;

•удельный вес слов, относительно которых определяется релевант ность, в общем количестве слов документа;

•время существования web-сайта;

•индекс цитируемости web-сайта и др.

Средством полнотекстового поиска, ориентированным на локальные информационные массивы и корпоративные сети, служит интеллектуаль ная система «Следопыт» (разработчик — компания «МедиаЛингва»; http://www.sledopyt.ru). Она позволяет сформировать дерево областей поис ка в виде иерархии папок с документами. Для каждой области может быть построен отдельный индекс.

Система обрабатывает документы в форматах DOC, DOT, RTF, XLS, PPT, TXT, HTML и PDF, документы данных форматов в ZIP-архивах, сооб щения электронной почты Microsoft Outlook, а также вложения в эти сооб-

5. Автоматизация работы со знаниями, представленными в текстовом виде

щения в перечисленных форматах (в том числе в ZIP-архивах). При индек сировании учитывается морфология русского и английского языков. Преду смотрена возможность автоматического обновления индексов.

«Следопыт» ведет поиск как по содержимому, так и по атрибутам до кументов. Запрос представляется в виде фразы на ЕЯ либо выражается на формальном языке с использованием логических операторов. В запрос мо гут одновременно входить термины русского и английского языков.

Другие примеры реализации функций интеллектуального поиска в корпоративных ИС описаны в § 3.6 и § 7.3.

Основные выводы

1. Возможности поисковых машин Internet в целом аналогичны поис ковым возможностям ГИПС. Отличие заключается в колоссальных размерах сети и пространственной распределенности ее узлов, а также параллельно сти процессов поиска. Основа функционирования этих систем одна и та же: гипертекстовые связи, ключевые слова, критерии смыслового соответствия, активная роль человека в управлении их формой и в оценке релевантности результатов поиска запросу.

2.Поисковые системы, использующие базы правил, имеют тенденцию

кперерастанию в специализированные ЭС.

3.Фундаментальной проблемой является создание методов понимания текста. Очевидно, что ее решение обеспечило бы основу для реализации эффективных средств извлечения знаний из естественно-языкового текста и полнотекстового поиска.

4.К сожалению, еш,е длительное время методы автоматического ин дексирования документов будут давать худшие по качеству результаты по сравнению с их индексированием авторами. Для повышения эффективности

икачества индексирования к документам добавляют метаданные, представ ляющие общую характеристику их семантики. В частности, язык HTML по зволяет вводить в документ ограниченный набор метаданных. Более эффек тивные решения связаны с использованием языка XML. Об этом пойдет речь в гл. 4.

Вопросы для самопроверки

1.В чем состоит проблема понимания текста на ЕЯ?

2.Каковы основные задачи морфологического и синтаксического анализа текста на ЕЯ?

3.Каковы основные задачи семантического анализа текста на ЕЯ?

4.Сколько уровней понимания естественно-языкового текста выделяют в ИАС? Охарактеризуйте эти уровни.

3.3.Автоматическое реферирование и аннотирование

5.Назовите основные методы поиска в тексте, используемые в ИПС, технологиях БД и БЗ, Internet.

6.Что такое каталоги ресурсов Internet?

7.Какие основные компоненты включает типовая поисковая машина Internet и каков алгоритм ее работы?

8.Какие факторы могут учитываться поисковой машиной Internet при определе нии степени релевантности документа и запроса?

3.3.Автоматическое реферирование и аннотирование

Всякое слово уэюе обобщает. И.Н. Горелов

Рефератом называют:

•доклад на определенную тему, включающий обзор соответствующих литературных и других источников;

•изложение содержания научной работы, книги и т. д.

Далее будем опираться на вторую трактовку.

Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографиче ского описания источника.

Аннотацию от реферата отличают:

•существенно меньший объем;

•обязательная констатация назначения аннотируемого произведения (для каких категорий читателей оно предназначено).

Автоматические реферирование и аннотирование получили значи тельную актуальность в связи с развитием Internet и каталогов информаци онных ресурсов. Для экономии времени поиска пользователям предлагают ся каталоги аннотаций и рефератов источников.

Формирование рефератов и аннотаций вручную требует колоссальных человеческих ресурсов, поэтому и возникла задача создания методов авто матического реферирования и аннотирования.

Автоматическое реферирование и аннотирование — одно из направ лений компьютерной обработки естественно-языковых текстов . И в этом качестве оно относится к фундаментальным технологиям ИИ.

Основные тенденции для данной области:

Содержание параграфа соответствует направлению исследований в области ИИ 1.4.3.

Системы, обрабатывающие тексты на ЕЯ, в зарубежной литературе назы вают NLP-системами (natural language processing).

3.Автоматизация работы со знаниями, представленными в текстовом виде

•аннотированные каталоги перерастают в гипертекстовые (с их ми нусами и плюсами);

•на всех крупных сайтах Internet предусматривают оглавления (карта сайта — sitemap) и функции поиска по сайту;

•использование онтологических словарей-тезаурусов общего и спе циализированного назначения, а также методов ИИ.

Потребности в средствах автоматического реферирования и аннотиро вания испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационнобиблиотечные системы; каналы вещания; службы рассылки новостей и др.

Методы автоматического реферирования и аннотирования подразде ляются на поверхностные и глубинные.

Поверхностные методы базируются на «экстрагировании» текста, т. е. извлечении из него фрагментов, оцениваемых системой как важнейшие, и объединении их в реферат или аннотацию. Важность фрагментов опреде ляется:

•по маркерам важности (оборотам типа «идея ... состоит в...», «главным результатом ... является...», «в заключении нужно сказать, что...» и т. д.);

•по количеству заданных в запросе ключевых слов, входящих во фрагмент, и др.

При объединении выделенных предложений в реферат или аннотацию учитываются их зависимости друг от друга (удаленность выделяемых мыс лей). «Стыки» между предложениями (фрагментами) «сглаживаются».

Глубинные методы, развиваемые в настоящее время, базируются на применении тезаурусов и развитых механизмов синтаксического разбора текста.

К традиционным системам автоматического реферирования и анноти рования, реализующим поверхностные методы, можно отнести:

•Microsoft Word (начиная с версии 7 имеется функция автоматиче ского реферирования);

•ОРФО 5.0 (разработчик — компания «Информатик»), включающую функцию автоматического аннотирования русских текстов;

•«Либретто» (разработчик — компания «МедиаЛикгва»), обеспечи вающую автоматическое реферирование и аннотирование русских и англий ских текстов (система встраивается в Word);

•пакет «МедиаЛингва Аннотатор SDK 1.0», служащий инструмента рием для реализации функций автоматического реферирования и аннотиро вания в прикладных ИАС;

•поисковую систему «Следопыт», включающую средства автомати ческого реферирования и аннотирования документов;

3.3.Автоматическое реферирование и аннотирование

•поисковую машину «Золотой Ключик» компании Textar, обеспечи вающую составление рефератов и аннотаций;

•Intelligent Text Miner (IBM);

•Oracle Context;

•программные компоненты для разработки систем управления зна ниями Inxight Summarizer фирмы Inxight Software, Inc.

Перечисленные средства обеспечивают выбор оригинальных фраг ментов из исходных документов и соединение их в короткий текст.

Сделаем два замечания. Во-первых, источниками информации для ре фератов и аннотаций могут служить не только тексты, но и видеозаписи, разнообразные табличные документы и т. д. Во-вторых, краткое изложение предполагает передачу основной мысли не обязательно теми же словами.

Основные требования к реферату.

•сжатие (объем реферата должен составлять от 5 до 30 % от объема исходного документа);

•возможность использования нескольких источников;

•выражение всех основных мыслей оригинала.

Выделяют три вида рефератов:

1) повествовательные, формирующие общее представление об источ

нике;

2)информационные, заменяющие источник (содержат основную или новую фактическую информацию);

3)критические (обзоры), отражающие не только суть источника, но и мнение о нем (т. е. содержащие дополнительные выводы, которых нет в оригинале).

Построение реферата человеком включает следующие этапы:

•анализ источника;

•выделение в источнике наиболее важных и информативных фраг

ментов;

•формирование выводов.

В теории автоматического реферирования различают три основных подхода [65]. Первый из них не предполагает опору на знания, связанные с текстом на ЕЯ. В системах такого типа применяется универсальная база правил, не зависящая от ПрО и языка текста. Второй подход предусматри вает выделение различных уровней понимания текста, что требует исполь зования наряду с универсальными правилами БЗ о ПрО и базы лингвистиче ских правил, зависящих от языка. Третий подход является гибридным. Он сочетает лучшие стороны первых двух.

В системах первого типа (т. е. воплощающих первый подход) приме няется метод составления выдерлсек. Он реализуется в два этапа. На пер вом проводится сопоставление текста и фразовых шаблонов, в результате

<<< < Предыдущая 1 2 3 4 5 6 78 / 318 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
12.11.2019917.7 Кб11ИЗО.rtf
#
10.08.201938.49 Кб35Имидж.docx
#
30.05.201526.07 Кб50ин яз.docx
#
15.09.2019179.2 Кб3Инструкция к Шаблону для тестов.doc
#
07.12.20181.05 Mб55инт_с_парам.doc
#
30.05.20158.73 Mб24инфа в тех универе.pdf
#
30.07.2019142.79 Кб77информатика первый реферат.docx
#
25.09.20191.99 Mб14ИОГП ШПОРА.doc
#
30.05.201517.83 Mб151ИС-ФиК УМК.doc
#
16.04.2019368.79 Кб10история ответы на вопросы.docx
#
30.05.201523.03 Кб16История развития фондового рынка.docx