книги / Сетевой информационный поиск
..pdfОрганизация поиска документов и ресурсов |
91 |
Для профессионально ориентированного поиска важны каталоги библиотек и архивов. В настоящее время все национальные, специа лизированные, публичные и основные научные библиотеки универ ситетов и колледжей во всех странах мира полностью или частично перевели свои каталоги в электронную форму. Такие каталоги в по давляющем большинстве случаев имеют открытый онлайновый дос туп. Иногда, однако, в открытый доступ переводится только часть библиотечного каталога, и к таким «полузакрытым» каталогам име ются различные формы доступа. Иногда для этого достаточно только зарегистрироваться, а иногда надо жить или находиться в той стране, где физически расположен сервер. Очень часто к некоторым матери алам соответствующего сервера имеют доступ только сотрудники или студенты университета. Бывают случаи, когда доступ к части мате риалов на сервере возможен только из локальной сети кампуса (сту денческого городка) — так называемый On campus access — или только из учебных аудиторий университета. Зачастую для получения доступа надо сообщить номер своей кредитной карточки или удостоверения социального страхования.
Опыт показывает, что библиографические данные и краткие резю ме (аннотации) в университетских библиотеках доступны практически всегда. Трудности начинаются при желании ознакомиться с полнотек стовым содержанием статей и книг. В то же время многие полнотексто вые издания, иногда те, к которым где-то доступ закрыт, бывают со вершенно свободно доступны в других библиотеках. Короче говоря, наткнувшись на препятствие в одном месте, имеет смысл попытаться найти тот лее самый материал в другом.
М ногие университетские библиотеки, связанные общими интере сами, а также просто региональные публичные и учебные библиоте ки объединены в корпоративные сети. Войдя в такую сеть, можно не только получить необходимую библиографическую информацию, но и выяснить, где находится тот или иной документ, чтобы, например, заказать его копию или же воспользоваться услугами международно го книгообмена (International Inerlibrary Loan — этот термин широко используется в США и многих других западных странах. В Англии же и еще в ряде стран для этой цели используется термин Interlibrary Lending).
Заказ ксерокопий традиционных документов можно выполнить по электронной почте. Возможна и пересылка по электронной почте ска нированных текстов. Эта услуга платная, и обычно плата слагается из некоей фиксированной суммы заказа и стоимости обработки каждой страницы. При желании оплата может быть осуществлена по Интер
92 |
Глава 3 |
нету стандартным способом. В ряде случаев существуют ограничения на объем копируемого материала. Так, Библиотека конгресса США прини мает заказы только на сканирование текстов объемом до 50 стр. Можно также заказать копии оглавлений или избранных мест большого доку мента. В то же время большинство библиотечных каталогов имеет службу бесплатной пересылки кратких библиографических материа лов электронной почтой. Эти услуги активно развиваются и в России.
В последние годы получили широкое распространение электрон ные журналы. Пользование ими обычно бесплатное, но во многих случаях надо подписаться на такой журнал по соответствующ ему URL-адресу. Имеются и специализированные электронные библио теки. Во многих крупных библиотеках в свободном доступе имеются большие количества полных электронных текстов ряда книжных изда ний. Это могут быть и классическая художественная литература, и научно-техническая. Имеются и чисто электронные (виртуальные) библиотеки. По существу, все перечисленные типы ресурсов ничем не отличаются от обычных электронных ресурсов Интернета — следует узнать URL-адрес такого ресурса и воспользоваться им. Далее все про исходит как обычно за исключением того, что приемы работы с соот ветствующим сервером имеют некоторые отличия от работы с обыч ными серверами.
В то же время часть информации, доступной через Интернет, полу чают и иными способами. Так, например, многие научные общества, фирмы и просто независимые организации проводят так называемые подписки. По некоторому, достаточно хорошо известному UR L-адре су можно подписаться на специальную информацию, которая затем будет присылаться вам по электронной почте. Это может быть инфор мация о конференциях, событиях, о возможностях трудоустройства, о содержании вновь вышедших в свет журналов, новостная информа ция и многое другое. Подобная подписка существует во всех странах. В России очень хорошие подписки рассылаются, в частности, новоси бирским центром с адресом: http://www.cip.nsk.su/. В качестве примера прекрасно организованной англоязычной подписки на учебные и спра вочные материалы можно привести английскую систему Spartacus, со зданную английскими учителями, объединенными в School Manerrs Centre (http://smc.eun.com). Очень интересен связанный с этой програм мой еженедельный сборник Education in the Internet. Этот сборник, точ нее Newsletters (сообщения о новостях), имеет свыше 15 000 подпис чиков и предназначен для учителей и родителей. Подписчикам раз в неделю рассылается список гипертекстовых записей URL-адресов, на которых в соответствующее время были размещены материалы по ис
Организация поиска документов и ресурсов |
93 |
тории, социологии и т. д. В этих рассылках имеются также материалы для «толкинистов», любителей книг про Гарри Поттера и пр. В рассыл ке после каждого адреса дается также краткая характеристика темы соответствующего материала. Адреса разбиты по темам, приблизитель но соответствующим школьным предметам. Круг освещаемых вопро сов очень широк. Получение информации бесплатное, а оператив ность рассылки очень высокая, причем она почти не сопровождаются рекламой или иным спамом. Эту подписку можно осуществить по адресу: http://www.spartacus.schoolnet.co.uk. В любом номере упомя нутых Newsletters можно также найти информацию о целом ряде учеб ных программ и других бесплатных рассылках по учебной тематике. К сожалению, таких разветвленных и высокопрофессиональных про грамм учебного плана в России пока не создано.
Любой желающий может обычным способом подписаться также на участие в различных конференциях, проводимых в Интернете, а также на различные свободные обсуждения — чаты (от англ. Chat — болтов ня). Следует лишь помнить, что в этом случае вы будете получать на адрес своей электронной почты огромный объем информации, и по этому многие опытные пользователи заводят для этой цели специаль ные электронные адреса. При подписке на 2 -3 такие программы у вас уже не будет достаточно времени, чтобы внимательно знакомиться с получаемыми материалами. Практически все начинающие пользова тели проходят через «болезнь активной подписки», но со временем, однако, устанавливается разумное соотношение между числом подпи сок и возможностями пользователя.
Материалы подписок хранятся на серверах недолго, а затем они по просту уничтожаются. Для тех, кто серьезно следит за литературой по избранной тематике, полезно рекомендовать подписку на рассылки ма териалов научных обществ. В этом случае можно получать сведения (а иногда и резюме) о новых публикациях по избранным вами для по стоянного контроля проблемам. Найти адреса, по которым проводятся интересующие вас подписки, несложно. Для этого в больших поиско вых машинах надо поинтересоваться URL-адресами соответствующих научных обществ и ассоциаций и уже там узнать адреса для заказа под писки.
Объемы материалов подписки могут быть очень большими, в связи с чем в ряде случаев можно подписаться только на определенную интере сующую вас часть материалов. Скажем прямо, не все подписки являют ся бесплатными. Так, например, Европейская ассоциация исследований в области обучения и преподавания (EuropeanAssociation o f Research on LearningandInstruction — EARLI) разрешает бесплатное получение сво
9 4 |
Глава 3 |
их рассылок только в течение одного года. Для постоянного получения материалов этой ассоциации необходимо вступить в ее члены и платить ежегодные взносы. За эти взносы член ассоциации получает право на бесплатную подписку и получает почтой ежемесячный журнал, издава емый ассоциацией. Член ассоциации также получает право на льготу при оплате участия в многочисленных международных конференциях, проводимых этой ассоциацией.
В электронных хранилищах информации имеется огромное количе ство ресурсов, которые не могут быть найдены непосредственно с по мощью поисковых машин — так называемые Deep Web. Д ля получе ния подобных ресурсов через сети Интернета надо формулировать специальный запрос. Иными словами, поисковая машина может най ти некие UR L-адреса, однако те ресурсы, которые по этим адресам хранятся, поисковая машина «не ощупывает». Для знакомства с эти ми ресурсами необходимо обычным путем войти в адрес, а затем уже выполнять поисковые операции. Примером таких ресурсов являются онлайновые каталоги библиотек. То, что находится в этих каталогах, поисковой машине напрямую не доступно, однако можно без труда и оплаты войти в каталог и, посылая соответствующие запросы, отыс кать всю необходимую информацию о документах и ресурсах, а иногда и сами ресурсы. Другими примерами таких материалов могут быть раз личные базы данных — например, профессионально (предметно) ори ентированные БД. Пользование такими БД зачастую платное, однако существует огромное количество БД, также специализированных, но ориентированных на очень широкий круг пользователей. Такими БД являются, например, широко распространенные^ СШ А БД о выпуск никах университетов и колледжей (с их фотографиями), БД об умер ших в той или иной местности, БД о квартиросъемщиках, телефонные книги, различные расписания и т. д. Сюда же относятся коллекции ви део- и фотоматериалов, коллекции музыкальных записей, различные словари, справочники и энциклопедии, то есть БД с бытовой инфор мацией. И з материалов такого рода в РУ Н Е Т пока что можно легко отыскать только телефонные справочники и иногда расписания транс порта. Необходимо отметить, что статьи из некоторых энциклопедий частично просматриваются и индексируются поисковыми машинами. Это означает, что эти материалы относятся к Deep Web только час тично.
М ожно привести примеры и других ресурсов, не доступных через Интернет без специальных запросов, хотя они и относятся к бытовой информации. Российские туристы, часто бывающие в скандинавских странах, хорошо знают пункты обмена валюты Forex. Эти пункты чаще
Организация поиска документов и ресурсов |
95 |
всего расположены на железнодорожных вокзалах, в аэропортах, на тер миналах паромных линий. Особенностью этих пунктов являются вы годные условия обмена валюты. Если вы заинтересуетесь адресами этих пунктов и войдете в соответствующий сайт, то с удивлением увидите там много дополнительной информации о курсах валют в разных стра нах, обновляемых несколько раз в сутки, о многих других банковских операциях и т. д. Эту полезную и доступную любому пользователю информацию получают только после обращения по соответствующе му адресу и формирования специальных запросов. Обычными спосо бами такую информацию получить обычно невозможно.
Количество информации подобного рода в разных ресурсах огром но. Мы часто слышим о многих миллионах ресурсов, доступных через обычные поисковые машины. Можно найти и информацию о том, что электронные ресурсы, напрямую недоступные через стандартные по исковые системы, по своему количеству чуть ли не в 500 раз превыша ют ресурсы, связанные с обычными поисковыми системами. Посколь ку информация о том, как получены эти оценки, отсутствует, говорить об их правильнсти следует очень аккуратно. Мы уже говорили, что в последнее время в англоязычной литературе для обозначения этих ре сурсов используются термины Deep Web {глубокая, скрытая Паутина или ресурс) или же Invisible Web (Невидимая паутина, невидимые ре сурсы). Какие типы ресурсов относить к этим понятиям, пока еще окон чательно не установлено. В отличие от Deep Web для обычных, доступ ных стандартных путем ресурсов, используют термины Static Web
( Постоянная, неизменная Паутина или ресурс), а также Surface Web (Ресурсы, лежащие на поверхности). Дословные переводы этих терми нов не очень хорошо отражают существо дела, однако адекватных рус скоязычных терминов, насколько нам известно, пока не предложено.
Как мы уже говорили, многие материалы Интернета напрямую недо ступны, и довольно часто за них приходится платить. Иногда необходи мый допуск к материалам разрешается только библиотекам. Читатели такой библиотеки в этом случае получают или пароль, или же пользу ются доступом к материалам из локальной сети библиотеки-подписчи ка. Существуют много специализированных БД, которые за плату пре доставляют доступ к своим материалам некоторым информационным центрам. Эти центры уже по сходной цене поставляют информацию ин дивидуальным пользователям или конкретным учреждениям. Такие центры имеются и в России. Если вы столкнулись с требованием об оплате, это еще не значит, что соответствующую информацию нельзя получить в другом месте бесплатно. Со временем любой пользователь осваивает несколько возможных путей для получения одной и той же
96 |
Глава 3 |
информации. Пока все эти пути не опробованы, огорчаться по поводу требований об оплате преждевременно. Существуют и специальные пути обхода платы за пользование информацией — не криминальные, но не всегда оправданные с этической точки зрения. Как мы оговорили в самом начале, этих путей мы описывать не будем. Кстати сказать, мно гие российские учреждения в последние годы отличаются тем, что пы таются взимать плату за самые элементарные услуги. Делать ли эту ра боту самому или же пользоваться платными услугами — вопрос сугубо личный. Точно так же следует самому решать, нужно ли оплачивать по мощь за онлайновый вход и поиск информации в каталогах крупней ших российских и мировых библиотек. В конце концов, это пособие учит тому, как самому выполнить подобную работу.
ГЛАВА 4 ______________
ПОИСКОВЫЕ СИСТЕМЫ И ВЫПОЛНЕНИЕ БЫТОВОГО ПОИСКА
Работа поисковых систем
Поисковые системы или машины (,Search Engines) непрерывно развиваются и совершенствуются. Тем не менее существуют некие неизменные принципы их работы. Пользователю-практику вполне достаточно ограничиться только общими представлениями об их структуре и работе. Основные заботы пользователя — это умение пра вильно и эффективно организовать свой поиск. Представления же о работе системы важны только с точки зрения понимания терминоло гии и возможностей выбора необходимой тактики работы. В боль шинстве ресурсов Интернета и в имеющейся литературе обычно ак центируют два момента: сведения об адресах и типах машин, а также сведения о принципах их работы, так как они задают наилучшие спо собы поиска. Последние материалы обычно пишутся квалифициро ванными программистами, а не библиотекарями. Чисто «библиотеч ный» (пользовательский) подход мы встречали в Интернете только на ряде англоязычных сайтов американских университетов, готовя щих библиотекарей — в частности, в уж е упоминавшемся Универси тете штата Нъю-Йорк в г. Олбани (http://library.albany.edu/intemet).
Приведенный адрес интересен тем, что в нем имеется то, что тради ционный учебник вам дать не сможет. На этом сайте в линке h ttp :// library.albany.edu/intemet/second.htm есть специальные упражнения, которые выполняются и проверяются непосредственно с клавиатуры компьютера. Ознакомившись с материалами этой главы, вы сможете даже при поверхностном знании английского языка выполнить упо мянутые полезные и несложные упражнения для закрепления при обретенных умений.
Все поисковые системы объединяет то, что они расположены на спе циально выделенных мощных серверах и обладают высокопроизводи тельными каналами связи. Количество одновременно обслуживаемых посетителей достигает на наиболее популярных поисковых машинах многих тысяч, а наиболее известные системы обслуживают в сутки миллионы клиентов. Естественно, поддержание таких систем требует огромных финансовых затрат, но, тем не менее, обслуживание клиен тов эти системы осуществляют на бесплатной основе. Отбор и подго товка информации для выдачи ее клиентам-пользователям в разных поисковых системах осуществляется по-разному. Соответственно, и названия у разных типов таких систем разные. В этих названиях ис пользуются известные термины, которые, однако, применяются не сов сем в традиционных смыслах.
Поисковые системы и выполнение бытового поиска |
99 |
Первым типом поисковых систем, также называемых иногда маши нами, что не вполне точно, являются предметные или тематические каталоги ( Subject Catalogs, Subject Guides). Иногда их просто называют
«поисковиками*. Компания, которая владеет каталогом, проводит непре рывную работу по изучению и упорядочению содержания материалов разных WWW-серверов, и в результате создается некий иерархический каталог с не очень большим числом шагов деления. Никакого научного принципа деления знаний в таком каталоге, как мы уже говорили, нет. Каталог создается на основании представлений об обычных требовани ях основной массы пользователей. По этой причине, в частности, заведо мо нет никаких гарантий того, что каталогохватывает все разделы знаний и весь материал, имеющийся на разных серверах всемирной сети. В то же время именно осмысленность отбора, в который вмешиваются модерато ры, делают такие каталоги очень удобными и полезными.
Второй тип поисковых систем — это чисто поисковые машины (к сожалению, и здесь терминология нечеткая и двойственная). Они связаны с использованием самостоятельного автоматического сбора и машинного анализа информации, находящейся в разных частях Интернета, для чего создаются специальные вспомогательные про граммы с разными названиями. Такие программы периодически иссле дуют содержимое всех ресурсов Интернета, перемещаясь, или, как го ворят, «ползая» по разным ресурсам. Соответственно они называются роботы или сокращенно боты. Кроме того, такие программы называ ются еще спайдерами (от англ. Spider — паук). Так как программа «пол зает» по сети, которая, как всем известно, называется еще Web —пау тина, то такое название вполне естественно. Не менее естественно и еще одно название таких программ — краулеры (от англ, to crawl — пол зать). Россияне иногда называют эти программы «ползунами». Тер мины краулер и спайдер используются в названиях ряда компьютер ных фирм и поисковых систем. В английском языке эти программы имеют еще два названия: Wanderer (путешественник, скиталец) и Worm (червь). Такие программы начинают исследовать и «скачивать» с разных URL-адресов содержащуюся в них информацию, но не мо гут оценить реальное содержание ресурсов и документов. Они толь ко строят специальные словоуказатели, которые называются индекса ми. Эти индексы и лежат в основе второго типа поисковых машин, часто называемых просто автоматическими индексами (иногда такие маши ны называют еще директориями). Все эти программы посещают каж дый ресурс через определенное время, иногда только раз в месяц. Час тота посещ ений зависит от многих обстоятельств — в частности, от общей посещаемости ресурса. Программы-спайдеры в разных по
100 |
Глава 4 |
исковых системах разные, поэтому и индексация в разных поисковых машинах тоже разная.
Итак, поисковая работа автоматического индекса состоит из трех частей:
♦программ-спайдеров, которые отыскивают и индексируют ре сурсы;
♦индексов поисковой системы, то есть основных хранилищ ее наи более важной информации; они также строятся по различающим ся принципам;
♦программы, которые в соответствии с запросом пользователя го товят ему ответ на основе анализа своих хранилищ информации; есть системы, которые обследуют хранилища других поисковых систем; иными словами, они реализуют то, что принято называть метапоиском.
Кроме того, следует отметить, что поисковым машинам огромная часть ресурсов (Deep Web) или недоступна, или ж е они ее в своей рабо те просто игнорируют. Почти все сказанное относится и к тематиче ским каталогам.
В настоящее время поисковые системы и каталоги в чистой форме почти не встречаются. Большая часть поисковых систем в той или иной форме сочетает обе формы работы. Именно поэтому упомянутая нами двойственность в использовании термина «поисковая машина» впол не допустима.
Среди поисковых систем особое место занимают системы, в кото рых активная роль принадлежит экспертам-модераторам. Эти экспер ты отбирают материал для каталогов, индексируют его и часто пишут профессиональные резюме содержания тех электронных ресурсов, ко торые имеются в каталоге системы. Работа таких поисковых систем очень дорога, и по этой причине количество отраженных в них ресур сов намного меньше, чем в основных поисковых системах, но этот не достаток окупается высоким качеством обработки материалов. Кроме того, существуют особые системы, которые отвечают на простые воп росы типа Кто был Архимед? или Что такое бензиновый двигатель?
Про такие запросы говорят, что они заданы на естественном языке.
Вопросы такого типа «понимают» многие поисковые машины, однако только в некоторых из них специальная группа экспертов специально готовит полнотекстовые ответы на те вопросы, которые эта группа за ранее считает наиболее вероятными при частых посещениях системы разными пользователями. К сожалению, русскоязычных поисковых систем такого типа мы не знаем.