Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информационно-поисковые системы и СУБД.rtf
Скачиваний:
12
Добавлен:
15.07.2019
Размер:
458.1 Кб
Скачать

1.2 Каталог и метапоисковая машина

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Отличие каталогов от поисковых систем заключается в том, что каталоги не посылают никаких роботов, чтобы индексировать вашу страницу или веб-сайт. Наиболее известным каталогом является Yahoo.com. Для регистрации в каталоге вам необходимо найти раздел, в который вы хотите поместить свою страницу, послать краткое описание сайта и список ключевых слов для поиска вашей страницы в каталоге. Затем эта информация просматривается и оценивается людьми, которые решают, стоит ли включать ваш информацию в каталог или нет. Поисковые системы используют для индексирования сайтов так называемых "поисковых роботов", спайдеров (от английского слова "spider", что значит "паук"). Робот - это небольшая программа, которая ходит по ссылкам на сайте и индексирует (собирает и запоминает) встреченную на пути информацию.

Принцип работы поисковых роботов приблизительно следующий: вы предоставляете поисковой системе точный адрес страницы, которую нужно зарегистрировать. Поисковая система проверяет, существует ли по этому адресу страница, и если да, то страничка вносится в "график посещения". Между временем, когда вы зарегистрировали страницу в поисковой системе и временем, когда вашу страничку посетит поисковый робот может пройти от нескольких минут до нескольких недель. Так что не спешите сразу же проверять наличие вашей страницы или сайта в поисковой системе.

Метапоисковая система. Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Преимущества мета поиска. Лучшие стороны многих ведущих поисковых систем. Базы данных традиционных поисковиков. Мета поиск может сделать сайт более заметным для пользователей. Его преимущество - в том, что в рамках одного поиска используются лучшие стороны многих ведущих поисковых систем, таких, к примеру, как Google, Yahoo! и AllTheWeb. Вы не сможете включить ваш сайт в индекс мета поисковых систем: у них просто нет своих баз данных. Вам нужно сперва правильно зарегистрироваться в обычных поисковых системах, а мета поисковики используют их результаты поиска при обработке своих запросов.

До недавнего времени каждая отдельная традиционная поисковая система индексировала несравненно меньший объем данных, чем тот, который учитывался при осуществлении мета поиска. Сейчас, с появлением поисковиков с (глубокой индексацией Web; Google, AllTheWeb и других), ситуация постепенно меняется.

Но все же используя мета поисковые системы вы существенно расширяете зону поиска, так как они опрашивают множество баз данных.

Большинство поисковых систем перешло на четырехэтапную структуру работы. Первые три этапа почти для всех поисковых систем одинаковы. Сначала поисковая система индексирует (собирает) информацию и заносит их в базу данных, потом, с учетом морфологии, разрезает все слова страниц на составляющие. Если человек обращается к поисковому процессору, то в действие вступает третий и четвертый этапы работы поисковой системы, она выбирает из базы абсолютно все документы, соответствующие данному запросу, а потом уже выводит их в зависимости от того, какая страница имеет больший поисковый вес, точность вхождения поисковой фразы, дату обновления и т.д.

Такая выборка, на основе многих параметров, называется ранжированием результатов поиска. Первые механизмы ранжирования документов строились на основе точности вхождения самого текста в поисковый запрос. Но это оказалось неактуальным, потому что степень вхождения поисковой фразы, расположение ее в теле документа или список ключевых слов не давал полного представления о документе.

Самый известный класс формул для вычисления веса документа по отношению к запросу называется TF*IDF. TF*IDF — численная мера соответствия слова и документа; она тем больше, чем относительно чаще (TF — частота термина в документе) слово встретилось в документе и относительно реже (IDF — редкость слова; величина, обратная частоте слова в коллекции) в коллекции. Именно механизмы ранжирования отличают поисковые системы одну от другой. Сейчас каждая поисковая система старается предложить свои механизмы ранжирования документов, чтобы занять лидирующее положение на поисковом рынке. Во многих поисковых системах на результаты поиска влияет около 200-300 факторов, которые тщательно скрываются от конкурентов. Именно они (совместно со скоростью индексации и объемами указателей) и помогли в свое время Гуглу опередить некогда лидирующую АльтаВисту.

Качество результатов поиска мета поисковыми системами напрямую зависит от качества поиска традиционных поисковиков. Но возможности мета поисковиков постоянно расширяются, они становятся более популярными, и, соответственно, будет расти число их пользователей. Согласно исследованию, в октябре 2001 года 23,4 миллиона уникальных посетителей использовали мета поисковые системы при поиске информации в сети.