Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
поиск в интернет.doc
Скачиваний:
3
Добавлен:
28.08.2019
Размер:
209.41 Кб
Скачать

Поисковые системы

Все инструменты поиска, описанные в предыдущих главах, сами по себе неплохи. Более того, очень удобны! Но не стоит слишком рассчитывать на их таланты и умения. Ведь все готовые подборки ссылок, независимо от их размера и структуры, пригодны лишь в качестве инструментов для грубого поиска. То есть очертить границы интересующего нас района Сети можно, а вот нанести точечный удар. Обнаружить на «карте» Паутины не город, не деревню, а крохотный пригорок… Увы!

Но выход есть – воспользоваться поисковыми системами, которые не ждут, пока пользователь внесет сайт в их каталог, а сами периодически обшаривают все пространство Сети. Иногда эти системы называют поисковыми роботами или даже пауками. Что ж, закономерно: если существует Всемирная Информационная Паутина (WWW), то почему бы в ней не завестись паукам?

Ползая по хитрым переплетениям Сети. «пауки» ежедневно и даже ежечасно заползают практически на все доступные страницы и заносят их в специальный индекс, громадную базу данных, по которым впоследствии и ведется поиск.

Эта база данных обновляется гораздо чаще, чем в каталогах, примерно раз в месяц производится ее переиндексация. Конечно, даже при такой частоте обновления в базах поисковиков со временем образуются залежи «мертвых» ссылок, зато по сравнению с каталогами их доля в несколько раз меньше. А уж об объеме информации и вовсе не приходится говорить. Если большинство поисковиков знакомо только с небольшой долей содержимого Сети, то поисковым работам доступен каждый ее уголок, каждая страничка. Не проводится здесь и цензура, селекция, а значит, поисковики гораздо более беспристрастны, чем те же каталоги.

Поисковый робот, в отличие от человека, равнодушен к рекламным завлекалочкам. Его задача проста: «сфотографировать» содержимое каждой странички на сайте и занести его в общий индекс.

Создатели сайтов «пауков» уважают их и даже заискивают перед ними, поднося мохнатому чудищу готовый список кодовых слов, определяющих тематику сайта. Например, страничка книжного издательства может содержать кодовые слова: «книги», «литература», «издания», «детективы», «фантастика», «книга – почтой» и пр. увы, осуществлять поиск по отдельным словам – работа весьма неблагодарная. Ибо в этом случае вместо ожидаемой четкой и короткой выборки сайтов на вас может свалится такое: отправьте, например, той же «альтависте», запрос на поиск по очень важному для вас слову «sex». А теперь попробуйте разобраться со всеми мохнадцатью бульонами ссылок, которые вы получили. Не получится, – не отчаивайтесь, авось правнуки разгребут…

Особенно трудно совладать с разбушевавшимся конем – поисковиком тем, кому нужно задать поиск по очень специфической теме, оперируя при этом самыми простыми словами. Например, автор является давним поклонником группы Software, работающей в жанре «электронной симфонии». Понятно, что слово Software для поисковика может ассоциироваться со многим, только в последнюю очередь с музыкальной группой. Если же добавить к запросу еще и elctronic music, возникнет объясненная выше информационная каша.

Именно для решения этой проблемы на большинстве серверов введен так называемый сложный поиск. Часто для его реализации применяются «расширенные» формы запроса. На них можно выйти, выбрав в меню «Сложный поиск» или «Расширенный поиск» на любом поисковом сервере.

Ветераны интернет поиска относятся к готовым «формам» весьма критически и поражают новичков, самостоятельно составляя сложные запросы - формулы с использованием специальных команд – операторов. Сегодня большинство поисковых машин оснащены сложным механизмом сортировки, который позволяет частично отфильтровывать заведомый мусор и оттеснить его в конец списка результатов. А на первые места в нем будут претендовать странички, обладающие большей степенью релевантности, то есть ожидаемой степени соответствия странички запроса пользователя.

Звучит громоздко и непонятно, но на самом деле все очень просто. Мы помним, что, индексируя страницу, поисковик работает сразу с несколькими элементами ее содержания:

  • Заголовок страницы;

  • Перечень ключевых слов, составленный ее автором;

  • Краткое описание странички, также содержащееся в ее теле. Для пользователей эта информация, как и список ключевых слов, остается невидимой;

  • Собственно содержимое странички.

Получается, что если заданные вами ключевые слова будут найдены в заголовке, описании, да еще вдобавок и в самом тексте страничке, то степень ее релевантности будет достаточно высокой. И велика вероятность, что в виде ссылки на эту страничку вы обрели бесценный информационный клад! А вот если ключевые слова будут найдены только в описании, а не на самой страничке, то робот наверняка занесет ее в список подозрительных. Было бы удивительно, если бы поисковые возможности не были востребованы создателями программ для путешествия по Сети – браузеров. Вы еще не забыли, что на панели вашего Internet Explorer есть кнопка «Поиск»? нажав на нее, вы сможете обратиться сразу к нескольким крупнейшим поисковым серверам, в том числе и к русскоязычным. Ведь еще два года назад российским пользователям Интернет приходилось довольствоваться исключительно англоязычными поисковиками, не слишком уверенно справляющимися с русским текстом. Теперь все изменилось – в Сети исправно функционирует добрый десяток русских поисковых машин.