Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздел 13. Методы поиска в сетях1.docx
Скачиваний:
36
Добавлен:
09.02.2015
Размер:
92.43 Кб
Скачать

13. Поиск и обмен информацией в глобальных и локальных компьютерных сетях

13.1. Методы поиска и обмена информацией в глобальных компьютерных сетях

Информационный поиск

Само понятие информационного поиска появилось только в середине 20 века. В основе этого понятия лежит представление о том, что поиск необходимой информации в любом собрании документов невозможен путем прочтения или даже беглого просмотра текстов всех документов этого собрания.

Прочтение полного текста документа заменяется просмотром заглавий, аннотаций, рефератов. Документы пришлось систематизировать по содержанию, которое условно стали обозначать индексами (буквами или цифрами). Систематизация по разделам наук – один из первых способов раскрытия содержания документа.

С увеличением объемов документов ввели алфавитно-предметную классификацию.

До середины 20 века в библиотеках, в основном, ограничивались тремя способами: систематическим, предметным и алфавитным. В 50-года сформировалось само понятие информационного поиска.

Информационный поиск – это совокупность логических процедур, в результате которых в ответ на информационный запрос выдается:

- необходимая информация;

- документы, в которых она находится;

- библиографические адреса этих документов.

Информационный поиск реализуется с помощью информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перевода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации (критерий выдачи).

Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», Google.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

  • URL страницы

  • дата, когда страница была скачана

  • http-заголовок ответа сервера

  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов. http://ru.wikipedia.org/wiki/Поисковый_робот

http://download.yandex.ru/company/iworld-3.pdf http://wiki.liveinternet.ru/IR/InvertirovannyjjFajjl