Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
поиск информации в интернете.doc
Скачиваний:
23
Добавлен:
14.05.2015
Размер:
149.5 Кб
Скачать

Как работают поисковые системы

Работа поисковой системы происходит в три этапа. На первом этапе она сканирует мировые ресурсы Web и собирает на свой сервер образы всех страниц, которые ей доведется посетить, - образуется первичный массив «неорганизованной» информации. На втором этапе этот массив приводится в порядок – преобразуется так, чтобы в нем очень быстро можно было найти то, что нужно клиенту. Этот этап называется индексацией. После этого система готова для работы с клиентами. На третьем этапе система принимает запрос клиента, смотрит, какие ключевые слова использованы в запросе, разыскивает их в своем указателе и отбирает те Web-документы, которые соответствуют запросу. Обычна ситуация, когда таких документов оказывается очень много, - тогда система выполняет ранжирование, то есть сортирует документы так, чтобы первыми в списке шли те, которые, с точки зрения системы, наиболее полезны пользователю. Этап ранжирования очень важен. Например, если мы ищем, где в Сети можно достать программу ICQ, то нам нужна только одна ссылка на сервер ее производителя. Нас не интересует многие тысячи ссылок на страницы, где название этой программы лишь упоминается. Разумеется, нам желательно, чтобы «главная» ссылка была если не самой первой в списке, то хотя бы входила в первую десятку.

Сбор информации происходит двумя основными способами: автоматически и вручную. Ручной сбор характерен для поисковых каталогов. «Человеческий» фактор по сравнению с автоматическими системами дает большой выигрыш в качестве. Во-первых опытные специалисты могут на глаз отличить полезные и ценные ресурсы, а во-вторых они способны выполнить их каталогизацию (распределить по категориям, темам, разделам и т. д.). Благодаря этому образуется не просто указатель, а каталог, с которым пользователю работать очень удобно. Недостатком ручной каталогизации является огромная трудоемкость и, соответственно, очень большие затраты на классификацию каждого документа. Автоматические системы действуют по другому. Они запускают в сеть, начиная с некоего адреса, программу-червя, которая копирует документ, находящийся по этому адресу. Просматривая документ «червь» находит вставленные в него гиперссылки, переходит по ним к новым документам, и далее процесс повторяется. Программа как бы постепенно «вгрызается» в Сеть, с каждым циклом погружаясь в нее все глубже и глубже. Непрерывно днем и ночью тысячи таких программ путешествуют по Web-пространству, копируя все, что им удалось найти, на серверы своих хозяев. Кроме ручной и автоматической каталогизации и индексации в Сети действуют и традиционные методы . Так, например, каждый Web-мастер может лично представить созданную им страницу поисковым системам и попросить редактора или «червя» посетить ее. Для этого надо просто заполнить стандартную форму и отправить ее по электронной почте.

После того как поисковые роботы скопируют все доступные документы на сервер своего хозяина, там образуется архив – некий неполный образ WWW. Работать с ним по нельзя, так как по каждому запросу пришлось бы делать полный просмотр всего архива, а это очень долго. Поэтому на втором этапе происходит индексация собранных ресурсов. На основе исходного материала готовится индексный файл. Принципов подготовки индексного файла может быть очень много, и каждая поисковая система имеет свои особые технологии. Самый простой тип индексного файла называется обратным файлом. Он делается так. Сначала составляется словарь составляется словарь по всем словам, встреченным во всех принятых документах, а потом для каждого слова записываютсяURL-адреса документов, в которых оно было встречено. Если теперь клиенту захочется узнать, где есть информация о телевизорах, и он выдаст задание на поиск по слову телевизор, то в ответ получит тот самый, заранее подготовленный список. Благодаря предварительной индексации поиск происходит очень быстро.

На третьем этапе происходит ранжирование результатов поиска, чтобы клиент в первую очередь получил те результаты, которые наиболее хорошо соответствуют его запросу.

Подобрав в ответ на запрос клиента несколько тысяч потенциально приемлемых документов, поисковая система должна их упорядочить. Обратите внимание на то, что клиенту, строго говоря, совершенно все равно, как система собирает информацию и как она ее индексирует. Ему нужны не тысячи ссылок, а единицы, при чем самые-самые полезные. Поэтому с идеологической точки зрения третий этап – самый важный. От него зависит успех и популярность поисковой системы. Если мы видим, что в ответ на наш запрос система выдает в первых десятках результатов ссылки на неактуальные ресурсы или дублирующиеся ссылки, то мы не будем пользоваться ее услугами, независимо от того, сколько миллионов долларов ее создатели вложили в оборудование, кадры и программное обеспечение. Пользователи легко уходят к менее мощным, но к более дружественным системам. Выполняя ранжирование результатов, поисковая система учитывает множество факторов. За одни факторы она начисляет положительный рейтинг, за другие – отрицательные. При чем каждая система делает это по своему, руководствуясь своим представлением о потребности клиента. Обычно положительные рейтинг получают страницы в следующих условиях:

  • если ключевые слова, использованные клиентом в запросе, встречаются в заголовке текста;

  • если ключевые слова встречаются в первых трех-четырех абзацах текста;

  • если на эту Web-страницу указывают ссылки, имеющиеся в других Web-страницах.