Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информационно-поисковые системы и СУБД.rtf
Скачиваний:
12
Добавлен:
15.07.2019
Размер:
458.1 Кб
Скачать

2. Принцип работы поисковых систем

Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на серверах, товары в интернет-магазинах, а также информацию в группах новостей.

В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем.

Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла. В конеце концов приходилось проделывать путь в множество подкатегорий, а если в какой-то категории «свернуть» не туда, то можно было просто ничего не найти.

Потом постепенно все поисковые системы начали переходить на «поисковые указатели». В отличие от каталогов, поисковые указатели формируют связки «Запрос — ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но впоследствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке.

Как правило, основной частью поисковой системы является поискоовая машиина (поискоовый движоок) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.

Поисковые cистемы обычно состоят из трех компонентов:

  1. агент (паук или кроулер), который перемещается по Сети и собирает информацию;

  2. база данных, которая содержит всю информацию, собираемую пауками;

  3. поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

2.1 Популярные и необычные поисковые системы Популярные поисковые системы.

Всеязычные:

  1. Google (34,4 % Русскоязычного сегмента).

  2. Bing (0,9 % Русскоязычного сегмента).

  3. Yahoo! (0,2 % Рунета) и принадлежащие этой компании поисковые машины: Inktomi, AltaVista, Alltheweb.

Англоязычные и международные: AskJeeves (механизм Teoma).

Рейтинг российских поисковых систем. Основные поисковые системы:

  1. http://www.yandex.ru/ — 54.8267%

  2. http://www.rambler.ru/ — 21.7645%

  3. http://www.google.com/ — 15.6207%

  4. http://www.mail.ru/ — 4.5466%

  5. http://www.aport.ru/ — 1.5788%

Необычные поисковые системы. Русскоязычные - большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.

  1. Яндекс (46,3 % Рунета)

  2. Mail.ru (8,9 % Рунета)

  3. Rambler (3,3 % Рунета)

  4. Nigma (0,5 % Рунета)

  5. Генон (0,1 % Рунета)

  6. Gogo.ru (<0,1 % Рунета)

  7. Aport (<0,1 % Рунета)

Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм — так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

  1. Koogle (с его помощью ортодоксальные иудеи могут найти контент, признанный раввинами удовлетворяющим религиозным требованиям).

  2. Yauba (индийский поиск «для параноиков» — в отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера).

  3. TinEye — поисковая система, специализирующаяся на поиске изображений в Интернете.

  4. Генон — поисковая система, собирающая и создающая контент у себя на сайте.