Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2я Сессия 13 июня 2011 год - ИНФОРМАТИКА - Лекц...doc
Скачиваний:
8
Добавлен:
17.08.2019
Размер:
232.45 Кб
Скачать

Поиск в Интернет

Поисковые системы (search engines)

Многие из нас не раз озадачивались проблемами поиска необходимых данных в сети Интернет. Сегодня глобальная сеть стала одним из важнейших средств массовой информации, и в качестве таковой призвана давать своим пользователям прежде всего именно информацию. Но проблема заключается в том, что ее глобальный характер сильно затрудняет процесс поиска нужного среди всех этих непостижимых объемов всевозможных данных, охватывающих самые разные сферы деятельности и интересов населяющих планету индивидов. Ведь никогда не узнаешь, что скрывается за названием того или иного веб-сайта, не посетив его. Кроме того, количество ресурсов, заполнявших огромное пространство на этапе быстрого развития Интернет, стремительно росло, причем многие из них были, да и сейчас остаются весьма похожими друг на друга. Требовалось найти надежный и быстрый способ значительно упростить процесс поиска в Сети, в противном случае само существование Интернет потеряло бы всякий смысл. Поэтому практически с самого рождения Интернет (во всяком случае, в современном его понимании*) были разработаны и запущены в Сеть так называемые поисковые машины (search engines).

Немного истории

Развитие поисковых систем в самом начале было весьма бурным, и создавали их все кому не лень. "Дедушкой" всех поисковых машин была система Archie, созданная в 1990 году Аланом Эмтажем (Alan Emtage), студентом McGill University Монреаля. Спустя три года University of Nevada System Computing Services запускает другой поисковик Veronica. Эти поисковики создавали базы данных существующих в сети файлов. Однако они вскоре перестали справляться с быстро растущим количеством файлов, и на смену им пришли другие.

World Wide Web Wanderer – первый автоматизированный робот – и ALIWEB – первый аналог веб-каталогов, заполняемых сайтовладельцами или редакторами, были разработаны уже осенью 1993 года. И, наконец, в том же году появились первые "пауки": JumpStation, World Wide Web Worm и Repository-Based Software Engineering ** – прародители современных всем известных поисковиков, таких как Google или Yahoo.

http://galaxy.com/info/history2.html

Российские разработчики тоже не отставали от своих западных коллег. В середине 90-х наша аудитория интернета еще только формировалась и была вынуждена пользоваться поисковыми системами, не понимавшими по-русски. Для них в 1996 году в небольшом подмосковном городке Пущино группа программистов под руководством Дмитрия Крюкова создала первую в России поисковую программу Рамблер, которая сразу же была запущена в эксплуатацию. Находясь по неизменному с тех пор адресу в Сети http://www.rambler.ru/, она и по сей день является одним из самых популярных поисковиков среди пользователей Интернет.

http://www.rambler.ru/doc/about.shtml

Через год аудитория русского интернета приветствовала появление поисковой машины с маркой Яndex (http://www.yandex.ru/). Опыт разработчиков компании CompTek, полученный в результате многолетней работы с поисковыми технологиями, благодаря чему были созданы небольшие подобные "машинки", помог реализовать систему поиска с учетом русской морфологии.

Поисковые машины делятся на две большие группы – поисковые машины и каталоги. Первые обходят веб-страницы и сохраняют их копии в индексе, чтобы потом выдать список найденных ресурсов в соответствии с запросами пользователей. Во вторые веб-сайты добавляются либо самими сайтовладельцами, либо редакторами каталогов. Однако, большинство современных поисковиков относятся к смешанному типу, то есть дополняют результаты поиска по базе данных, собранной "пауками", данными из каталогов по категориям.

Все поисковые машины состоят из трех основных частей. Первая - так называемый "паук" или "червяк" - постоянно "ползает" по всему веб-пространству, следуя многочисленным ссылкам как в пределах одного сайта, так и с одного сайта на другой. "Паук" считывает содержимое всех страниц и передает эти данные централизованному хранилищу своего поисковика (называемому также индексом).

Индекс является второй из трех упомянутых составных частей поисковой машины.

Третья, составляющая системы - алгоритм поиска - механизм, который сортирует базу данных, выдает страницу со ссылками на ресурсы, которые он счел соответствующими запросу (релевантными). Наиболее релевантные ресурсы оказываются наверху списка. Поэтому владелец сайта должен стремиться к тому, чтобы поисковая машина посчитала именно его ресурс наиболее релевантным тем ключевым словам, по которым, по его мнению, будут искать его сайт.

AlltheWeb, Google, AltaVista, Teoma, Wisenut, Yahoo, Netscape, Lycos

rambler, yandex, aport