Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Министерство образования и науки Российской Федерации.docx
Скачиваний:
6
Добавлен:
18.03.2016
Размер:
46.39 Кб
Скачать

2. Принцип работы и обзор поисковых систем и языка запросов

Состав и принципы работы поисковой системы

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Поисковых систем в мире насчитывается достаточно много, однако среди них выделяется 3 гиганта — Google, Yahoo и MSN Search, каждый из которых имеет свою базу данных и свои собственные алгоритмы поиска. В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Все остальные поисковики в той или иной мере используют их данные и их наработки в своей деятельности. Среди указанных поисковиков первое место занимает Google. Нам он интересен еще и потому, что занимает видное место в поиске среди русскоязычных сайтов (Рунете). Кроме того, Google регулярно рассказывает о своих подходах к индексации сайтов и вебмастера имеют возможность строить свою работу, основываясь на данных из первоисточника.

Структура поисковых систем

Итак, любая поисковая система, как бы она ни называлась, имеет общие с другими поисковиками черты. У них у всех есть (в той или иной степени развитости) следующие системы:

  • программы, которые скачивают к себе в базу вебстраницы, их часто называют Spider (паук);

  • программы, которые с этих обнаруженных страниц переходят по ссылкам на другие Интернет-ресурсы (Crawler или «путешествующий» паук);

  • программы, которые анализируют скачанные страницы (Indexer или индексатор);

  • программа, которая выдает по запросу нужные результаты (Search engine results engine — система выдачи результатов).

Модуль индексирования состоит из трех вспомогательных программ (роботов): Spider, Crawler, Indexer.

Spider (паук) – программа, предназначенная для скачивания веб-страниц. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

-URL страницы

-дата, когда страница была скачана

-http-заголовок ответа сервера

-тело страницы (html-код)

Теперь подытожим все вышесказанное.

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.

Основные характеристики поисковых систем:

    • Полнота

    • Точность

    • Актуальность

    • Скорость поиска

    • Наглядность

Применение языка запросов

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Например, запросу 'самолет' удовлетворяют все документы, в которых хотя бы раз встретилось слово 'самолет' в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.

Расширенный поиск

Форма расширенного поиска дает возможность:

  • задавать дополнительные параметры поиска;

  • редактировать параметры поиска и поля, заданные по умолчанию;

  • выбирать наиболее удобную форму показа результатов поиска.