- •1. Sls-Автосервис
- •2.Принцип работы и обзор поисковых систем и языка запросов
- •1. Sls-Автосервис
- •2. Принцип работы и обзор поисковых систем и языка запросов
- •1. Поиск по тексту ...
- •7. Искать документы только на следующих сайтах ...
- •8. Вывод результатов поиска
- •8.1 Сортировать ...
- •8.2 Выдавать ...
- •8.3 Форма вывода ...
- •8.4 Связанные запросы ...
2. Принцип работы и обзор поисковых систем и языка запросов
Состав и принципы работы поисковой системы
Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
Поисковых систем в мире насчитывается достаточно много, однако среди них выделяется 3 гиганта — Google, Yahoo и MSN Search, каждый из которых имеет свою базу данных и свои собственные алгоритмы поиска. В русском Интернете это – «Яндекс», «Рамблер», «Апорт».
Все остальные поисковики в той или иной мере используют их данные и их наработки в своей деятельности. Среди указанных поисковиков первое место занимает Google. Нам он интересен еще и потому, что занимает видное место в поиске среди русскоязычных сайтов (Рунете). Кроме того, Google регулярно рассказывает о своих подходах к индексации сайтов и вебмастера имеют возможность строить свою работу, основываясь на данных из первоисточника.
Структура поисковых систем
Итак, любая поисковая система, как бы она ни называлась, имеет общие с другими поисковиками черты. У них у всех есть (в той или иной степени развитости) следующие системы:
программы, которые скачивают к себе в базу вебстраницы, их часто называют Spider (паук);
программы, которые с этих обнаруженных страниц переходят по ссылкам на другие Интернет-ресурсы (Crawler или «путешествующий» паук);
программы, которые анализируют скачанные страницы (Indexer или индексатор);
программа, которая выдает по запросу нужные результаты (Search engine results engine — система выдачи результатов).
Модуль индексирования состоит из трех вспомогательных программ (роботов): Spider, Crawler, Indexer.
Spider (паук) – программа, предназначенная для скачивания веб-страниц. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
-URL страницы
-дата, когда страница была скачана
-http-заголовок ответа сервера
-тело страницы (html-код)
Теперь подытожим все вышесказанное.
Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
Основные характеристики поисковых систем:
Полнота
Точность
Актуальность
Скорость поиска
Наглядность
Применение языка запросов
Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Например, запросу 'самолет' удовлетворяют все документы, в которых хотя бы раз встретилось слово 'самолет' в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.
Расширенный поиск
Форма расширенного поиска дает возможность:
задавать дополнительные параметры поиска;
редактировать параметры поиска и поля, заданные по умолчанию;
выбирать наиболее удобную форму показа результатов поиска.