Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Работы / Мировые ИР_Материалы для самостоятельной работы студентов.docx
Скачиваний:
78
Добавлен:
12.06.2015
Размер:
1.35 Mб
Скачать

Вопросы для повторения

1. Каковы основные виды информационных ресурсов? Дайте ответ исходя из нескольких оснований классификации.

2. Назовите и охарактеризуйте крупнейшие международные агентства и корпорации, поставляющие информационные ресурсы.

3. Что такое государственные информационные ресурсы? Каковы их особенности? Приведите основные виды государственных информационных ресурсов?

4. Какие ведомства и организации в России занимаются сбором и анализом статистической информации?

5. Назовите основные центры научно-технической информации в России.

Тема 3. Информационный поиск: инструментарий и алгоритмы

Информационный поиск – это процесс поиска неструктурированной документальной информации и наука об этом поиске. Если говорить в целом, то поиск информации представляет собой процесс выявления в множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

1. Информационно-поисковые системы: принципы построения и оценки

Сначала системы автоматизированного информационного поиска, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. С появлением и распространением Интернет широкое распространение получили сетевые информационно-поисковые системы (Google, Яндекс и Рамблер).

Рассмотрим подробнее историю появления наиболее известных сегодня информационно-поисковых систем глобальной сети Интернет.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» - бот, разработанный М. Грэем из Массачусетского технологического института (1993 г.). Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой, то есть индексирующей ресурсы при помощи робота, поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице – с тех пор это стало стандартом во всех основных поисковых системах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Northern Light» и «AltaVista». Они конкурировали с популярными Интернет-каталогами, такими как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.

На сегодняшний день самыми распространенными информационно-поисковыми системами среди пользователей сети Интернет являются:

  1. Поисковые системы российского сегмента сети Интернет:

  • Поисковая система «Яндекс» - http://www.yandex.ru

  • Поисковая систем Google (Россия) - http://www.google.ru

  • Поисковая система «Рамблер» - http://www.rambler.ru

  • Поисковая система «Апорт» - http://www.aport.ru

  • Поисковая система «Поиск@Mail.ru» - http://go.mail.ru

  • Интеллектуальная поисковая система Nigma - http://www.nigma.ru

  1. Международные поисковые системы:

  • Поисковая система Google- http://www.google.com

  • Поисковая система Bing - http://www.bing.com

  • Поисковая система Yahoo! - http://search.yahoo.com

  • Поисковая система AltaVista - http://www.altavista.com

Современная ИПС представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям (Рис. 2).

Технически поисковая система состоит из трех основных компонентов – это краулеры, база данных и обработчик запросов. Краулеры (другое название «пауки», боты) программы, которые сканируют сайты в Интернет, сохраняют все найденные страницы в базу данных и заполняют индексы, которые потом будут использоваться для поиска. Реальный поиск совершается не по страницам Интернет, а по сохраненной информации. Чтобы обойти весь Интернет, краулерам необходимо всего 2-3 недели.

Обработчик запросов совершает поиск, он ищет страницы, содержание которых соответствует запросу. Для этого он смотрит в «обратный индекс» и для каждого слова запроса находит список страниц, которые это слово содержат. Далее отбираются страницы, содержащиеся во всех списках, то есть те страницы, которые содержат все слова запроса. Отобранные страницы обрабатываются дальше, например, чтобы проверить, как близко слова запроса находятся внутри каждой страницы (см. критерии релевантности). Окончательно страницы выводятся пользователю в порядке уменьшения их релевантности.

Рисунок 2. Общая схема работы информационно-поисковой системы

Можно выделить следующие виды информационного поиска:

1) Полнотекстовый поиск – поиск по всему содержимому документа. Для ускорения поиска использует предварительно построенные индексы. Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени, а в Интернете был бы вовсе невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс–словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.

Индексирование в поисковых системах Интернет – это процесс добавления сведений о сайте роботом поисковой машины в базу данных, впоследствии использующуюся для полнотекстового поиска информации на проиндексированных сайтах.

2) Поиск по метаданным. Наиболее распространенное определение термина «метаданные» - данные о данных. Этот термин используется везде при ссылке на описательную информацию об онлайн-ресурсах и представляет собой сокращенное описание формы и контента ресурса. В самом широком смысле, метаданные можно использовать для описания информационных структур – это поиск по отдельным атрибутам документа, поддерживаемым системой – например, название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе MS Windows.

3) Поиск изображений (визуальный контентный поиск) – поиск по содержанию изображения. Поисковая система распознает содержание фотографии, а в результатах поиска пользователь получает похожие изображения. Большинство популярных поисковых систем следом за поиском веб-страниц с текстовой информацией начали работать над поиском изображений. Компания Picsearch (http://picsearch.com) выпустила первую публичную версию поиска по изображениям в сентябре 2001 г. В июле того же года запустил свой поиск по картинкам Google (http://images.google.com). Сервис Яндекс. Картинки (http://images.yandex.ru) официально открылся в 2002 г., став первой российской ИПС, ищущей изображения. В ноябре 2003 г. Yahoo! добавил справа от поисковой строки меню с опцией поиска по изображениям. На начальном этапе своего существования поиск изображений основывался исключительно на извлечении и анализе метаданных, связанных непосредственно с изображениями: атрибутов, заголовков страниц и текстов ссылок на изображения. Постепенно для поиска изображений стали учитывать также и текст, расположенный на той же веб-странице, что и картинка. Параллельно с этим стала развиваться и применяться технология поиска изображений по их содержанию, основанная на распознавании образов.

Также следует упомянуть мало распространенную, но крайне перспективную технологию аудиального поиска, основанную на интеллектуальной системе распознавания речи и звуковых фрагментов.

Рассмотрим общие принципы построения информационно-поисковых систем.

Первая задача, которую должна решить информационно-поисковая система – это создание описания документа или любого другого информационного ресурса. Такая процедура, как уже упоминалось, называется индексированием. Основная цель процесса индексирования – поставить в соответствие каждому документу некоторое множество ключевых слов, отражающих содержание документа. Ключевые слова называются также идентификаторами, индексационными терминами, дескрипторами, понятиями. Ключевые слова управляют поиском, приводя в результате к тем документам, термины которых оказываются наиболее сходными с терминами запроса. Результатом индексирования является поисковый образ документа, который представляет документ в ИПС.

Любой метод индексирования основан на текстах исходных документов, или жена определенных фрагментах этих текстов (заглавия, рефераты и др.). Процесс индексирования состоит из следующих операций:

  1. Отбор индексационных терминов, используемых для описания содержания документа;

  2. Приписывание этим терминам некоторого веса, который отражает предполагаемую важность терминов.

  3. Отнесение каждого термина к некоторому типу (например, к классу действий, свойств или объектов);

  4. Определение отношений (синонимических, иерархических, ассоциативных) между терминами.

В зависимости от принятой модели индексирования и поиска документов некоторые операции из вышеперечисленного списка могут быть исключены. В большинстве ИПС для описания содержания документов и запросов используются полученные таким образом множества терминов с весами. Расчеты весовых коэффициентов обычно основаны на частоте появления данного термина в документе или частоте его появления во всех доступных документах.

Тем не менее, современные способы индексирования не ограничиваются анализом частотных параметров текста, предоставляя возможность весьма подробного описания документов. Коэффициенты значимости терминов определяются с учетом положения термина внутри документа (например, в заголовке) и взаимного расположения терминов в тексте.

Некоторые современные поисковые системы выполняют полнотекстовое индексирование, при котором в описание включается большой объем информации о документе: позиция каждого слова, раздел текста, в который входит данное слово, шрифт и т. д.

Индексирование документов является разовым процессом в локальных системах или постоянным в глобальных, но в любом случае оно не производится одновременно с поиском (для поиска и индексирования не используются одновременно одни и те же аппаратные ресурсы). Вследствие этого скорость поиска информации в ИПС определяется скоростью доступа к хранилищу поисковых образов (второй влияющий фактор – поисковый алгоритм), которая зависит от структуры и объема базы данных документов.

Рисунок 3. Общий принцип осуществления поиска в информационной поисковой системе Интернет

Таким образом, запрос поступает в ИПС, и система возвращает некоторый ответ – результат поиска. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью.

Релевантность – это фундаментальное понятие теории информационного поиска. Тем не менее, оно не является специфичным для информационно-поисковых систем, и изучается многими направлениями науки: философией, психологией, теорией искусственного интеллекта, теорией обработки естественных языков и т. д. Теоретически релевантность можно измерить некоторым числом в интервале от нуля (полностью неподходящий документ) до единицы (полностью подходящий документ). На практике же релевантность в основном определяется при оценке просматриваемых документов – подходит ли данный документ пользователю или не подходит. Нерелевантные документы, которые сравниваются с релевантными, иногда называются шумом, по аналогии с теорией передачи информации К. Шеннона.

Важно отметить, что в результате анализа статистики запросов большого числа пользователей к известным поисковым системам выяснилось, что средняя длина запроса не превышает двух слов, и пользователи, как правило, используют самую простую форму запроса. Поэтому современная поисковая система должна самостоятельно выявлять информационные потребности конкретного пользователя и учитывать их при поиске. Пока задача создания таких высокоэффевтивных поисковых систем не решена, особую важность представляет знание пользователем методик составления поисковых предписаний для различных поисковых систем.