Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
635
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

С широким внедрением телекоммуникационных сетей и некоторой стандартизации представления данных в Internet задача взаимосвязи становится еще более сложной. Ее решение путем создания статичных связей практически невозможно, даже если бы все компоненты имели свои уникальные идентификаторы и незыблемое место в информационном пространстве (чего зачастую невозможно добиться даже для локальных массивов). Что уж говорить о, скажем, информационных объектах, появляющихся на многочисленных сайтах Internet. Любое изменение местоположения информационного объекта влечет за собой возникновение "ложных" связей в распределенных электронных библиотеках. И число этих связей с течением времени возрастает. Поэтому на смену статичным связям приходят динамические, связи. Их особенностью является то, что они генерируются программно, по предопределенным алгоритмам во время обращения к объекту. Таким образом, можно связать информационные объекты, но при условии достаточной определенности (специфицированности) элементов.

Связи внутри могут быть построены на таких идентификаторах, как давно применяемые ISBN и ISSN или сравнительно недав-

но возникшие DOI (Digital Object Identifier). В тех случаях, когда такие идентификаторы отсутствуют (а таких случаев большинство), одним из решений может быть генерация динамических связей. В качестве основы для построения идентификаторов здесь могут выступать либо уникальные элементы записи, либо их свертки.

Кроме того, в качестве идентификаторов, используемых для установки активных связей, могут служить части элементов библиографического описания, организованные, например, в виде поисковых индексов. Таким способом можно связывать, скажем, компоненты справочно-нормативных файлов и массивов библиографических записей. Конечно, это возможно лишь при достаточно строгой структуризации компонентов баз данных и применении алгоритмов свертки, допускающих минимальный процент дублирования.

Отметим в заключение, что именно эти различия архитектуры, стратегии комплектования и организации доступа в итоге определяют не только функциональные возможности средств поиска конкретного ИР, но и круг потенциальных пользователей, а так же результативность решаемых ими задач.

211

8.2. Распределенная обработка в поисковых машинах Internet

Особенностью современных поисковых систем является фактическая разработка собственных операционных сред. Типичным примером является среда, на базе которой функционируют серверы

Google.

Фактической базой системы является ОС FreeBSD. Однако способ управления вычислениями и файловая система в Google – собственная разработка компании.

Рис. 8.2. Архитектура файловой системы Google (GFS)

Особенность файловой системы Google, представленной на рис. 8.2, – ориентация на очень большие, мало изменяющиеся файлы, которые должны храниться на множестве ненадежных вычислительных систем.

GFS состоит из множества кластеров. Каждый кластер состоит из отдельного Master-компьютера (мастера) и множества подчиненных ему серверов (chunkservers). Все файлы в системе состоят и

212

кусочков фиксированной длины – 64 Мб. Каждый кусочек помечен 64-битовым идентификатором.

GFS – это файловая система с журналом. Master, собственно, и ведет журнал изменений и обращений. Он же и восстанавливает систему при сбоях.

Система постоянно реплицируется. Кроме того, постоянно ведется контроль целостности данных и их непротиворечивости.

В GFS хранятся и индексы, и сами страницы, которые индексируются роботами Google. Собственно, GFS – это только часть технологии Google, предназначенной для работы с собранными данными. Кроме GFS, для поиска и записи данных в Google применяют технологии MapReduce (распараллеливание процедуры поиска и агрегирования результатов поиска) и BigTable (распределенное хранение больших объемов структурированных данных).

Технологии Google предназначены для параллельной обработки запросов. При этом процедура записи в GFS и поиска данных в GFS симметричны, что дает возможность использовать MapReduce и BigTable как при поиске, так и при записи данных.

8.3. Организация доступа к распределенным документальным ИР

Электронные (или цифровые) ИР, по сути своей, призваны хранить разнородную информацию и предоставлять пользователям удаленный доступ к ней по сети. Но при наличии в настоящее время огромного числа стандартов представления и передачи электронных документов, непременным требованием становится возможность представлять информацию в некой единой, удобной пользователю, форме, чтобы обеспечить её эффективное использование.

На самом деле большинство этих требований реализуется не на уровне конкретного приложения, а на уровне протоколов обмена данными.

В концепции WWW база данных – это набор текстовых файлов, написанных на языке HTML, который определяет форму представления информации (разметка) и структуру связей этих файлов (гипертекстовые ссылки). Такой подход предполагает наличие еще

213

одной компоненты технологии – интерпретатора языка. В World Wide Web функции интерпретатора разделены между сервером гипертекстовой базы данных и интерфейсом пользователя. Сервер, кроме обеспечения доступа к документам и реализации гипертекстовых ссылок, осуществляет также предобработку документов, в то время как программа просмотра (браузер) на машине пользователя проводит интерпретацию конструкций языка, связанных с представлением получаемой от сервера информации, и формирует изображение.

На сегодняшний день в области автоматизации доступа к распределенным ИР, кроме HTTP, достаточно широкое применение нашел протокол Z39.50.

Оба протокола, несмотря на то, что они используются для одних целей, различаются по назначению. Z39.50 изначально создавался как протокол поиска в библиографических базах данных и поэтому обладает большими возможностями по поиску, извлечению и представлению информации.

Список метаданных для доступа к ИР определяется в первую очередь используемым протоколом доступа. Для ресурсов, работающих по HTTP, единственным обязательным параметром является адрес документа/ресурса в сети (локальной или глобальной), т.е. URL или IP-адрес. Для Z-ресурсов минимальный набор метаданных должен включать адрес сервера, номер порта, имя поисковой базы и явное задание используемых поисковых полей. Параметры и структура поискового запроса определяются информаци- онно-поисковым языком и типом запроса.

Также для Z-ресурсов обязательным является явное задание формата выдачи результата, в то время как при работе с HTTP он может быть опущен и результатом будет полный текст документа (для полнотекстовых баз) и реферат или библиографическая карточка для реферативных и библиографических ресурсов соответственно. При этом, информационно-поисковые системы (в том числе и работающие по Z-протоколу) обычно хранят и выражение запроса, и список идентификаторов документов, который на следующих шагах может объединяться/пересекаться со списками, полученным при поиске документов по новым выражениям. В то же время, возможность сохранения списка идентификаторов найденных доку-

214

ментов в поисковых машинах World Wide Web практически отсутствует, что связано с особенностью протоколов взаимодействия программы-клиента и сервера системы, которые не поддерживают сеансовый режим работы.

Протокол z39.50. Особенностью протокола Z39.50 является именно возможность сохранения состояний системы, что позволяет производить «навигацию во времени» т.е. в любой момент можно вернуться в определенную точку поиска, произведенного ранее. Наличие памяти в протоколе позволяет также использовать результаты поиска, полученные ранее, в составлении дальнейших запросов. Например, возможно составление запроса типа: (Result1) AND NOT (Result2) и др.

В качестве дополнительных возможностей Z-протокол позволяет выполнять параллельные операции поиска, уведомлять пользователя о состоянии сервера, сортировать данные на сервере, получать информацию о подключенных базах, наборах атрибутов, синтаксисах записей и т.д. Для описания баз данных внутри протокола был создан соответствующий абстрактный формат описания.

Следует заметить, что ни в одной сети не существует программных комплексов, реализующих полностью стандарт Z39.50. Современные системы в той или иной степени реализуют его подмножества, опуская подчас важные элементы, которые связаны как с обработкой запросов, так и с генерацией отчетов на эти запросы.

Z39.50 описывает прикладной уровень взаимодействия распределенных информационно-поисковых систем. Протокол определяет сам механизм информационного обмена в процессе обработки поисковых запросов и протокол обмена данными в системах, которые осуществляют поиск. Область применения протокола – библиотечные системы и системы научно-технической информации. Стандарт не определяет протоколы взаимодействия с физическими устройствами или их виртуальными аналогами, например, терминалами.

Термин база данных в спецификации Z39.50 означает набор файлов, каждый из которых имеет свое уникальное имя. Группа файлов внутри базы данных может также иметь свое собственное имя и образовывать отдельную базу данных. Такой подход аналогичен понятию схемы и подсхемы для систем управления базами

215

данных. Единицей хранения информации, которая может быть найдена при обращении к базе данных, является запись файла. Все записи одного файла должны иметь одинаковую структуру (т.е. состоять из одного и того же набора элементов и точек доступа). Точка доступа – это уникальный или неуникальный ключ (поисковое поле), который может быть указан самостоятельно или в совокупности с другими ключами в поисковом критерии. Ключ может быть элементом данных, состоять из нескольких элементов или быть частью элемента.

Запрос выполняется по всей базе данных. При этом проверяется совпадение точек доступа записей и элементов запроса. Набор записей, удовлетворяющих запросу, является ответом системы на запрос. Ответ может быть использован для последующих поисков в базе данных, в том числе, в виде ссылок на результаты предыдущих запросов.

Вобщем случае при выполнении запроса не требуется физического доступа к записям баз данных, так как в отчет о проведенном поиске включаются только идентификаторы записей, удовлетворяющих запросу, но не сами записи.

Врамках работы распределенной информационно-поисковой системы рассматриваются два типа прикладных задач:

- задача, инициирующая взаимодействие и посылающая запросы на обслуживание;

- задача, отвечающая за ответы на запросы первой задачи. Первая задача называется «источник» (origin), а вторая – «мишень» (target). Взаимодействие источника и мишени осуществляется путем установки соединения. Соединение может быть инициализировано только источником и может быть разорвано либо другим источником, либо мишенью, либо по внешним причинам (например, физический разрыв связи). В процессе взаимодействия источник и мишень не могут поменяться ролями. Таким образом, протокол Z39.50 описывает интерактивную сессию между источником запросов и мишенью, которая эти запросы обслуживает, т.е.

реализует типичное взаимодействие по схеме «клиент-сервер». Согласно Z39.50, в рамках распределенной информационно-

поисковой системы существуют семь основных видов информационного обмена:

- инициализация сессии;

216

-поиск информации по запросу;

-представление результатов поиска;

-удаление результатов поиска;

-контроль доступа к информационному ресурсу;

-контроль прав доступа к информационному ресурсу;

-завершение сессии.

Как было показано выше, с точки зрения состава и характера информационных ресурсов можно выделить: электронные каталоги, библиографические и реферативные базы данных, полнотекстовые массивы (электронные журналы, фактографические базы данных, хранилища электронных копий статей и других публикаций), справочно-нормативные файлы (рубрикаторы, тезаурусы, авторские, предметные, географические и другие метаинформационные продукты). Записи этих массивов могут быть взаимно связаны между собой ссылками, указателями хранения или условиями отыскания. И даже если такие ссылки в явном виде не существуют, то уже по своей сути эти компоненты всегда были и будут связаны, по крайней мере, на концептуальном уровне.

8.4. Обобщенная схема доступа к ресурсам ЭБ

Рассмотрим обобщенную информационную систему, обеспечивающую унифицированный доступ к разнородным распределенным документальным ресурсам, образующим в общем случае электронную библиотеку. На схеме, представленной на рис. 8.3, можно выделить три блока:

-клиентское приложение;

-информационный сервер;

-сервер управления доступом пользователей к информационным ресурсам.

Клиентское приложение обеспечивает взаимодействие конечного пользователя с серверной частью приложения. Ее основное назначение –формулирование поискового запроса и передача его локальной или внешней (распределенной через webили Z39.50-шлюз) поисковой системе, а по окончании поиска отображение результата в удобной для пользователя форме. В качестве клиентского приложения может выступать как Web-браузер или Z-

217

клиент, так и поисковая система, имеющая собственные локальные БД и обеспечивающая взаимодействие с внешними ИР через шлюзы, согласующие требования к представлению запросов и выдач.

Рис. 8.3. Организация доступа к распределенным ИР

Серверная часть обеспечивает через сервер связи (Webсервер или Z39.50-сервер) взаимодействие клиента и собственно информационного сервера. Эта работа скрыта от конечного пользователя.

Информационный сервер – это хранилище данных, представляющих коллекции разнородных логически или физически взаимосвязанных документов, доступ к которым обеспечивается средствами информационно-поисковой системы. При этом поисковые (реферативные или библиографические) и метаинформационные компоненты обычно реализованы в виде структурированных баз данных, в то время как компоненты уровня первичной информации могут быть представлены и полнотекстовыми БД, и коллекциями файлов, каждый из которых хранит, обычно, образ в том или ином графическом или текстовом формате.

Сервер управления доступом к информационным ресурсам

реализует ограничения доступа к компонентам ИР. Обычно он представляет собой набор специализированных баз данных, как,

218

например, каталог ИР, хранящий сведения о локальных и ассоциированных ресурсах, каталог пользователей, хранящий учетные записи и список доступных конкретному пользователю информационных ресурсов, БД учетно-статистической информации об использовании ресурсов и т.д.

8.5. Доступ к полным текстам документов

Для пользователей наибольшую ценность представляют не библиографические описания, а сами документы. При этом требуется получить их с минимальными временными и финансовыми затратами. Современные поисковые порталы позволяют искать библиографическое описание и аннотации статей из периодических изданий, таких как электронные версии журналов или журналы, выходящие только в электронной форме. В большинстве случаев полные тексты статей бесплатно недоступны.

Источниками полнотекстовой информации могут являться:

-коммерческие или общественные издательства (напри-

мер, Elsevier или American Chemical Society);

-коллекции (например, Bio OnLine);

-полнотекстовые БД (например, EBSCO);

-провайдеры услуг, обеспечивающие доступ к электронным версиям статей и электронную доставку документации (на-

пример, eLibrary);

-OnLine издатели (например, Highwire Press);

-независимые журналы (например, D-Lib);

-библиотечные каталоги (например, каталог библиотеки Конгресса США);

-специализированные службы электронной доставки документов (например, CISTI);

-общедоступные ресурсы поисковых машин Internet (на-

пример, Google).

Полнотекстовый документ, описание которого было получено при проведении первоначального поиска, может находиться в целом ряде источников, как платных, так и открытых. Кроме того, этот же документ может присутствовать в свободном доступе на веб-сайте автора или университета, в котором он работает. Для

219

решения задачи оптимизации формирования ссылок на полнотекстовые электронные документы был создан стандарт OpenURL. В основе HTTP, которая является самой распространенной Internetтехнологией на сегодняшний день, лежит использование гиперссылок, содержащих адрес ресурса в формате URL. На веб-страницах могут применяться как статические, так и динамические URL. Статические URL применяются, когда адрес ресурса известен и неизменен, а динамические URL – при программном формировании ссылок, на основе сведений выбранных из БД, а также случаев передачи параметров, необходимых для последующей обработки.

Стандарт OpenURL. В основе стандарта OpenURL лежит формирование динамических ссылок, содержащих в качестве параметров гиперссылки трех блоков данных:

-базового OpenURL – содержит адрес используемого определителя ссылок;

-идентификатора sid (уникальный идентификатор, формируемый службой, создавшей ссылку OpenURL);

-метаданных, описывающих ресурс.

Например, для поиска статьи со следующим библиографическим описанием:

Автор: L.Feng

Название статьи: “The methodology for XML documents”. Источник: “ACM Transactions on Informational Systems”. ISSN: 1046-8188.

Дата публикации: 2002 Том: 20 Выпуск: 3

Страницы: 390-421

гиперссылка в формате OpenURL будет иметь следующий

вид:

http://www.lib.web.edu/openresolver/&sid=uweb:openurl&genre= article&article=The methodology for XML documents&title= ACM Transactions on Informational Systems&issn=10468188&date=202&volume=20&issue=3 &spage=390&epage=421 &aulast=Feng&auinit=L

220

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]