Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Организация поиска документов и ресурсов

91

Для профессионально ориентированного поиска важны каталоги библиотек и архивов. В настоящее время все национальные, специа­ лизированные, публичные и основные научные библиотеки универ­ ситетов и колледжей во всех странах мира полностью или частично перевели свои каталоги в электронную форму. Такие каталоги в по­ давляющем большинстве случаев имеют открытый онлайновый дос­ туп. Иногда, однако, в открытый доступ переводится только часть библиотечного каталога, и к таким «полузакрытым» каталогам име­ ются различные формы доступа. Иногда для этого достаточно только зарегистрироваться, а иногда надо жить или находиться в той стране, где физически расположен сервер. Очень часто к некоторым матери­ алам соответствующего сервера имеют доступ только сотрудники или студенты университета. Бывают случаи, когда доступ к части мате­ риалов на сервере возможен только из локальной сети кампуса (сту­ денческого городка) — так называемый On campus access — или только из учебных аудиторий университета. Зачастую для получения доступа надо сообщить номер своей кредитной карточки или удостоверения социального страхования.

Опыт показывает, что библиографические данные и краткие резю­ ме (аннотации) в университетских библиотеках доступны практически всегда. Трудности начинаются при желании ознакомиться с полнотек­ стовым содержанием статей и книг. В то же время многие полнотексто­ вые издания, иногда те, к которым где-то доступ закрыт, бывают со­ вершенно свободно доступны в других библиотеках. Короче говоря, наткнувшись на препятствие в одном месте, имеет смысл попытаться найти тот лее самый материал в другом.

М ногие университетские библиотеки, связанные общими интере­ сами, а также просто региональные публичные и учебные библиоте­ ки объединены в корпоративные сети. Войдя в такую сеть, можно не только получить необходимую библиографическую информацию, но и выяснить, где находится тот или иной документ, чтобы, например, заказать его копию или же воспользоваться услугами международно­ го книгообмена (International Inerlibrary Loan — этот термин широко используется в США и многих других западных странах. В Англии же и еще в ряде стран для этой цели используется термин Interlibrary Lending).

Заказ ксерокопий традиционных документов можно выполнить по электронной почте. Возможна и пересылка по электронной почте ска­ нированных текстов. Эта услуга платная, и обычно плата слагается из некоей фиксированной суммы заказа и стоимости обработки каждой страницы. При желании оплата может быть осуществлена по Интер­

92

Глава 3

нету стандартным способом. В ряде случаев существуют ограничения на объем копируемого материала. Так, Библиотека конгресса США прини­ мает заказы только на сканирование текстов объемом до 50 стр. Можно также заказать копии оглавлений или избранных мест большого доку­ мента. В то же время большинство библиотечных каталогов имеет службу бесплатной пересылки кратких библиографических материа­ лов электронной почтой. Эти услуги активно развиваются и в России.

В последние годы получили широкое распространение электрон­ ные журналы. Пользование ими обычно бесплатное, но во многих случаях надо подписаться на такой журнал по соответствующ ему URL-адресу. Имеются и специализированные электронные библио­ теки. Во многих крупных библиотеках в свободном доступе имеются большие количества полных электронных текстов ряда книжных изда­ ний. Это могут быть и классическая художественная литература, и научно-техническая. Имеются и чисто электронные (виртуальные) библиотеки. По существу, все перечисленные типы ресурсов ничем не отличаются от обычных электронных ресурсов Интернета — следует узнать URL-адрес такого ресурса и воспользоваться им. Далее все про­ исходит как обычно за исключением того, что приемы работы с соот­ ветствующим сервером имеют некоторые отличия от работы с обыч­ ными серверами.

В то же время часть информации, доступной через Интернет, полу­ чают и иными способами. Так, например, многие научные общества, фирмы и просто независимые организации проводят так называемые подписки. По некоторому, достаточно хорошо известному UR L-адре­ су можно подписаться на специальную информацию, которая затем будет присылаться вам по электронной почте. Это может быть инфор­ мация о конференциях, событиях, о возможностях трудоустройства, о содержании вновь вышедших в свет журналов, новостная информа­ ция и многое другое. Подобная подписка существует во всех странах. В России очень хорошие подписки рассылаются, в частности, новоси­ бирским центром с адресом: http://www.cip.nsk.su/. В качестве примера прекрасно организованной англоязычной подписки на учебные и спра­ вочные материалы можно привести английскую систему Spartacus, со­ зданную английскими учителями, объединенными в School Manerrs Centre (http://smc.eun.com). Очень интересен связанный с этой програм­ мой еженедельный сборник Education in the Internet. Этот сборник, точ­ нее Newsletters (сообщения о новостях), имеет свыше 15 000 подпис­ чиков и предназначен для учителей и родителей. Подписчикам раз в неделю рассылается список гипертекстовых записей URL-адресов, на которых в соответствующее время были размещены материалы по ис­

Организация поиска документов и ресурсов

93

тории, социологии и т. д. В этих рассылках имеются также материалы для «толкинистов», любителей книг про Гарри Поттера и пр. В рассыл­ ке после каждого адреса дается также краткая характеристика темы соответствующего материала. Адреса разбиты по темам, приблизитель­ но соответствующим школьным предметам. Круг освещаемых вопро­ сов очень широк. Получение информации бесплатное, а оператив­ ность рассылки очень высокая, причем она почти не сопровождаются рекламой или иным спамом. Эту подписку можно осуществить по адресу: http://www.spartacus.schoolnet.co.uk. В любом номере упомя­ нутых Newsletters можно также найти информацию о целом ряде учеб­ ных программ и других бесплатных рассылках по учебной тематике. К сожалению, таких разветвленных и высокопрофессиональных про­ грамм учебного плана в России пока не создано.

Любой желающий может обычным способом подписаться также на участие в различных конференциях, проводимых в Интернете, а также на различные свободные обсуждения — чаты (от англ. Chat — болтов­ ня). Следует лишь помнить, что в этом случае вы будете получать на адрес своей электронной почты огромный объем информации, и по­ этому многие опытные пользователи заводят для этой цели специаль­ ные электронные адреса. При подписке на 2 -3 такие программы у вас уже не будет достаточно времени, чтобы внимательно знакомиться с получаемыми материалами. Практически все начинающие пользова­ тели проходят через «болезнь активной подписки», но со временем, однако, устанавливается разумное соотношение между числом подпи­ сок и возможностями пользователя.

Материалы подписок хранятся на серверах недолго, а затем они по­ просту уничтожаются. Для тех, кто серьезно следит за литературой по избранной тематике, полезно рекомендовать подписку на рассылки ма­ териалов научных обществ. В этом случае можно получать сведения (а иногда и резюме) о новых публикациях по избранным вами для по­ стоянного контроля проблемам. Найти адреса, по которым проводятся интересующие вас подписки, несложно. Для этого в больших поиско­ вых машинах надо поинтересоваться URL-адресами соответствующих научных обществ и ассоциаций и уже там узнать адреса для заказа под­ писки.

Объемы материалов подписки могут быть очень большими, в связи с чем в ряде случаев можно подписаться только на определенную интере­ сующую вас часть материалов. Скажем прямо, не все подписки являют­ ся бесплатными. Так, например, Европейская ассоциация исследований в области обучения и преподавания (EuropeanAssociation o f Research on LearningandInstruction EARLI) разрешает бесплатное получение сво­

9 4

Глава 3

их рассылок только в течение одного года. Для постоянного получения материалов этой ассоциации необходимо вступить в ее члены и платить ежегодные взносы. За эти взносы член ассоциации получает право на бесплатную подписку и получает почтой ежемесячный журнал, издава­ емый ассоциацией. Член ассоциации также получает право на льготу при оплате участия в многочисленных международных конференциях, проводимых этой ассоциацией.

В электронных хранилищах информации имеется огромное количе­ ство ресурсов, которые не могут быть найдены непосредственно с по­ мощью поисковых машин — так называемые Deep Web. Д ля получе­ ния подобных ресурсов через сети Интернета надо формулировать специальный запрос. Иными словами, поисковая машина может най­ ти некие UR L-адреса, однако те ресурсы, которые по этим адресам хранятся, поисковая машина «не ощупывает». Для знакомства с эти­ ми ресурсами необходимо обычным путем войти в адрес, а затем уже выполнять поисковые операции. Примером таких ресурсов являются онлайновые каталоги библиотек. То, что находится в этих каталогах, поисковой машине напрямую не доступно, однако можно без труда и оплаты войти в каталог и, посылая соответствующие запросы, отыс­ кать всю необходимую информацию о документах и ресурсах, а иногда и сами ресурсы. Другими примерами таких материалов могут быть раз­ личные базы данных — например, профессионально (предметно) ори­ ентированные БД. Пользование такими БД зачастую платное, однако существует огромное количество БД, также специализированных, но ориентированных на очень широкий круг пользователей. Такими БД являются, например, широко распространенные^ СШ А БД о выпуск­ никах университетов и колледжей (с их фотографиями), БД об умер­ ших в той или иной местности, БД о квартиросъемщиках, телефонные книги, различные расписания и т. д. Сюда же относятся коллекции ви­ део- и фотоматериалов, коллекции музыкальных записей, различные словари, справочники и энциклопедии, то есть БД с бытовой инфор­ мацией. И з материалов такого рода в РУ Н Е Т пока что можно легко отыскать только телефонные справочники и иногда расписания транс­ порта. Необходимо отметить, что статьи из некоторых энциклопедий частично просматриваются и индексируются поисковыми машинами. Это означает, что эти материалы относятся к Deep Web только час­ тично.

М ожно привести примеры и других ресурсов, не доступных через Интернет без специальных запросов, хотя они и относятся к бытовой информации. Российские туристы, часто бывающие в скандинавских странах, хорошо знают пункты обмена валюты Forex. Эти пункты чаще

Организация поиска документов и ресурсов

95

всего расположены на железнодорожных вокзалах, в аэропортах, на тер­ миналах паромных линий. Особенностью этих пунктов являются вы­ годные условия обмена валюты. Если вы заинтересуетесь адресами этих пунктов и войдете в соответствующий сайт, то с удивлением увидите там много дополнительной информации о курсах валют в разных стра­ нах, обновляемых несколько раз в сутки, о многих других банковских операциях и т. д. Эту полезную и доступную любому пользователю информацию получают только после обращения по соответствующе­ му адресу и формирования специальных запросов. Обычными спосо­ бами такую информацию получить обычно невозможно.

Количество информации подобного рода в разных ресурсах огром­ но. Мы часто слышим о многих миллионах ресурсов, доступных через обычные поисковые машины. Можно найти и информацию о том, что электронные ресурсы, напрямую недоступные через стандартные по­ исковые системы, по своему количеству чуть ли не в 500 раз превыша­ ют ресурсы, связанные с обычными поисковыми системами. Посколь­ ку информация о том, как получены эти оценки, отсутствует, говорить об их правильнсти следует очень аккуратно. Мы уже говорили, что в последнее время в англоязычной литературе для обозначения этих ре­ сурсов используются термины Deep Web {глубокая, скрытая Паутина или ресурс) или же Invisible Web (Невидимая паутина, невидимые ре­ сурсы). Какие типы ресурсов относить к этим понятиям, пока еще окон­ чательно не установлено. В отличие от Deep Web для обычных, доступ­ ных стандартных путем ресурсов, используют термины Static Web

( Постоянная, неизменная Паутина или ресурс), а также Surface Web (Ресурсы, лежащие на поверхности). Дословные переводы этих терми­ нов не очень хорошо отражают существо дела, однако адекватных рус­ скоязычных терминов, насколько нам известно, пока не предложено.

Как мы уже говорили, многие материалы Интернета напрямую недо­ ступны, и довольно часто за них приходится платить. Иногда необходи­ мый допуск к материалам разрешается только библиотекам. Читатели такой библиотеки в этом случае получают или пароль, или же пользу­ ются доступом к материалам из локальной сети библиотеки-подписчи­ ка. Существуют много специализированных БД, которые за плату пре­ доставляют доступ к своим материалам некоторым информационным центрам. Эти центры уже по сходной цене поставляют информацию ин­ дивидуальным пользователям или конкретным учреждениям. Такие центры имеются и в России. Если вы столкнулись с требованием об оплате, это еще не значит, что соответствующую информацию нельзя получить в другом месте бесплатно. Со временем любой пользователь осваивает несколько возможных путей для получения одной и той же

96

Глава 3

информации. Пока все эти пути не опробованы, огорчаться по поводу требований об оплате преждевременно. Существуют и специальные пути обхода платы за пользование информацией — не криминальные, но не всегда оправданные с этической точки зрения. Как мы оговорили в самом начале, этих путей мы описывать не будем. Кстати сказать, мно­ гие российские учреждения в последние годы отличаются тем, что пы­ таются взимать плату за самые элементарные услуги. Делать ли эту ра­ боту самому или же пользоваться платными услугами — вопрос сугубо личный. Точно так же следует самому решать, нужно ли оплачивать по­ мощь за онлайновый вход и поиск информации в каталогах крупней­ ших российских и мировых библиотек. В конце концов, это пособие учит тому, как самому выполнить подобную работу.

ГЛАВА 4 ______________

ПОИСКОВЫЕ СИСТЕМЫ И ВЫПОЛНЕНИЕ БЫТОВОГО ПОИСКА

Работа поисковых систем

Поисковые системы или машины (,Search Engines) непрерывно развиваются и совершенствуются. Тем не менее существуют некие неизменные принципы их работы. Пользователю-практику вполне достаточно ограничиться только общими представлениями об их структуре и работе. Основные заботы пользователя — это умение пра­ вильно и эффективно организовать свой поиск. Представления же о работе системы важны только с точки зрения понимания терминоло­ гии и возможностей выбора необходимой тактики работы. В боль­ шинстве ресурсов Интернета и в имеющейся литературе обычно ак­ центируют два момента: сведения об адресах и типах машин, а также сведения о принципах их работы, так как они задают наилучшие спо­ собы поиска. Последние материалы обычно пишутся квалифициро­ ванными программистами, а не библиотекарями. Чисто «библиотеч­ ный» (пользовательский) подход мы встречали в Интернете только на ряде англоязычных сайтов американских университетов, готовя­ щих библиотекарей — в частности, в уж е упоминавшемся Универси­ тете штата Нъю-Йорк в г. Олбани (http://library.albany.edu/intemet).

Приведенный адрес интересен тем, что в нем имеется то, что тради­ ционный учебник вам дать не сможет. На этом сайте в линке h ttp :// library.albany.edu/intemet/second.htm есть специальные упражнения, которые выполняются и проверяются непосредственно с клавиатуры компьютера. Ознакомившись с материалами этой главы, вы сможете даже при поверхностном знании английского языка выполнить упо­ мянутые полезные и несложные упражнения для закрепления при­ обретенных умений.

Все поисковые системы объединяет то, что они расположены на спе­ циально выделенных мощных серверах и обладают высокопроизводи­ тельными каналами связи. Количество одновременно обслуживаемых посетителей достигает на наиболее популярных поисковых машинах многих тысяч, а наиболее известные системы обслуживают в сутки миллионы клиентов. Естественно, поддержание таких систем требует огромных финансовых затрат, но, тем не менее, обслуживание клиен­ тов эти системы осуществляют на бесплатной основе. Отбор и подго­ товка информации для выдачи ее клиентам-пользователям в разных поисковых системах осуществляется по-разному. Соответственно, и названия у разных типов таких систем разные. В этих названиях ис­ пользуются известные термины, которые, однако, применяются не сов­ сем в традиционных смыслах.

Поисковые системы и выполнение бытового поиска

99

Первым типом поисковых систем, также называемых иногда маши­ нами, что не вполне точно, являются предметные или тематические каталоги ( Subject Catalogs, Subject Guides). Иногда их просто называют

«поисковиками*. Компания, которая владеет каталогом, проводит непре­ рывную работу по изучению и упорядочению содержания материалов разных WWW-серверов, и в результате создается некий иерархический каталог с не очень большим числом шагов деления. Никакого научного принципа деления знаний в таком каталоге, как мы уже говорили, нет. Каталог создается на основании представлений об обычных требовани­ ях основной массы пользователей. По этой причине, в частности, заведо­ мо нет никаких гарантий того, что каталогохватывает все разделы знаний и весь материал, имеющийся на разных серверах всемирной сети. В то же время именно осмысленность отбора, в который вмешиваются модерато­ ры, делают такие каталоги очень удобными и полезными.

Второй тип поисковых систем — это чисто поисковые машины (к сожалению, и здесь терминология нечеткая и двойственная). Они связаны с использованием самостоятельного автоматического сбора и машинного анализа информации, находящейся в разных частях Интернета, для чего создаются специальные вспомогательные про­ граммы с разными названиями. Такие программы периодически иссле­ дуют содержимое всех ресурсов Интернета, перемещаясь, или, как го­ ворят, «ползая» по разным ресурсам. Соответственно они называются роботы или сокращенно боты. Кроме того, такие программы называ­ ются еще спайдерами (от англ. Spider — паук). Так как программа «пол­ зает» по сети, которая, как всем известно, называется еще Web —пау­ тина, то такое название вполне естественно. Не менее естественно и еще одно название таких программ — краулеры (от англ, to crawl пол­ зать). Россияне иногда называют эти программы «ползунами». Тер­ мины краулер и спайдер используются в названиях ряда компьютер­ ных фирм и поисковых систем. В английском языке эти программы имеют еще два названия: Wanderer (путешественник, скиталец) и Worm (червь). Такие программы начинают исследовать и «скачивать» с разных URL-адресов содержащуюся в них информацию, но не мо­ гут оценить реальное содержание ресурсов и документов. Они толь­ ко строят специальные словоуказатели, которые называются индекса­ ми. Эти индексы и лежат в основе второго типа поисковых машин, часто называемых просто автоматическими индексами (иногда такие маши­ ны называют еще директориями). Все эти программы посещают каж­ дый ресурс через определенное время, иногда только раз в месяц. Час­ тота посещ ений зависит от многих обстоятельств — в частности, от общей посещаемости ресурса. Программы-спайдеры в разных по­

100

Глава 4

исковых системах разные, поэтому и индексация в разных поисковых машинах тоже разная.

Итак, поисковая работа автоматического индекса состоит из трех частей:

программ-спайдеров, которые отыскивают и индексируют ре­ сурсы;

индексов поисковой системы, то есть основных хранилищ ее наи­ более важной информации; они также строятся по различающим­ ся принципам;

программы, которые в соответствии с запросом пользователя го­ товят ему ответ на основе анализа своих хранилищ информации; есть системы, которые обследуют хранилища других поисковых систем; иными словами, они реализуют то, что принято называть метапоиском.

Кроме того, следует отметить, что поисковым машинам огромная часть ресурсов (Deep Web) или недоступна, или ж е они ее в своей рабо­ те просто игнорируют. Почти все сказанное относится и к тематиче­ ским каталогам.

В настоящее время поисковые системы и каталоги в чистой форме почти не встречаются. Большая часть поисковых систем в той или иной форме сочетает обе формы работы. Именно поэтому упомянутая нами двойственность в использовании термина «поисковая машина» впол­ не допустима.

Среди поисковых систем особое место занимают системы, в кото­ рых активная роль принадлежит экспертам-модераторам. Эти экспер­ ты отбирают материал для каталогов, индексируют его и часто пишут профессиональные резюме содержания тех электронных ресурсов, ко­ торые имеются в каталоге системы. Работа таких поисковых систем очень дорога, и по этой причине количество отраженных в них ресур­ сов намного меньше, чем в основных поисковых системах, но этот не­ достаток окупается высоким качеством обработки материалов. Кроме того, существуют особые системы, которые отвечают на простые воп­ росы типа Кто был Архимед? или Что такое бензиновый двигатель?

Про такие запросы говорят, что они заданы на естественном языке.

Вопросы такого типа «понимают» многие поисковые машины, однако только в некоторых из них специальная группа экспертов специально готовит полнотекстовые ответы на те вопросы, которые эта группа за­ ранее считает наиболее вероятными при частых посещениях системы разными пользователями. К сожалению, русскоязычных поисковых систем такого типа мы не знаем.