Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Poiskovye_sistemy.doc
Скачиваний:
12
Добавлен:
14.05.2015
Размер:
169.47 Кб
Скачать

Индексация сайтов

Поисковый робот Google имеет User Agent — Googlebot, который является основным роботом, сканирующим содержание страницы для поискового индекса. Помимо него существуют ещё несколько специализированных роботов:

  • Googlebot-Mobile — робот, индексирующий сайты для мобильных устройств,

  • Google Search Appliance (Google) gsa-crawler — поисковой робот нового аппаратно-программного комплекса Search Appliance,

  • Googlebot-Image — робот, сканирующий страницы для индекса картинок,

  • Mediapartners-Google — робот, сканирующий контент страницы для определения содержания AdSense,

  • Adsbot-Google — робот, сканирующий контент для оценки качества целевых страниц AdWords.

Существует теория эффекта песочницы, которая утверждает, что сайты, которые имеют новые доменные имена, частые смены владельцев или нэймсерверов, помещаются в «песочницу» (зону ожидания) и пребывают там, пока механизм Google не сочтёт сайт готовым из неё выйти.

Также существует обратная теория, называющаяся «бонус новичка», в которой при первоначальной индексации сайта, в силу некоторых аспектов (например нескольких ссылок с авторитетных ресурсов), сайту сразу присваивается высокий Page Rank и хорошие места в поисковой выдаче. По истечении некоторого времени, после снятия этого эффекта сайту присваиваются его реальные показатели.

Проблемы с авторскими правами

KaZaA и Церковь Сайентологии использовали Закон об авторском праве в цифровую эпоху (DMCA), чтобы потребовать от Google удалить ссылки на материалы на их сайтах якобы защищённые авторским правом. Google по закону обязан удалить эти ссылки, но вместо того, чтобы убрать результаты поиска, предпочитает связать результаты с жалобами, которые подали эти организации.

New York Times жаловалась на то, что кэширование их содержания поисковым роботом — особенность, используемая поисковиками, в том числе Google Web Search, нарушает авторские права. Google соблюдает стандартные Интернет-приёмы для запросов об отключении кэширования посредством файла robots.txt — стандартного механизма, позволяющего администраторам веб-сайта потребовать исключения своего сайта или его части из результатов поиска — или через мета-теги, позволяющие редактору контента указать, можно ли индексировать или архивировать документ и можно ли проходить по ссылкам в документе. Окружной суд США штата Невада постановил, что кэши компании Google не нарушают авторских прав согласно американскому законодательству в делах Field v. Google и Parker v. Google.

PageRank

Google использует алгоритм расчёта авторитетности PageRank. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.

Синтаксис запросов

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.

Поиск в найденном

Для некоторых результатов поиска Google предоставляет повторное поле для поиска, которое позволяет пользователю найти то, что он ищет внутри конкретного веб-сайта.

Голосовой поиск

22 сентября компания запустила голосовой поиск в России . Чтобы осуществить поиск необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

  1. Рамблер

Rambler Media Group (AIM: RMG) — интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный интернет-портал.

Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова. По умолчанию в Рамблере результаты ранжируются по степени соответствия (релевантность) запросу и группируются по сайтам.

Настройки языка поиска: любой, русский, английский, украинский. Учитывается морфология.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]