Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Poiskovye_sistemy.doc
Скачиваний:
12
Добавлен:
14.05.2015
Размер:
169.47 Кб
Скачать

26

Поисковые системы

  1. Я́ндекс

  2. Google

  3. Рамблер

  4. Каталоги ресурсов. Метапоисковые системы.

Поисковая система — это портал, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины1, но существуют также системы, способные искать файлы на ftp-серверах.2.

Классификация поисковых систем:

1) полнотекстовые поисковые системы или поисковые машины (Search Engines)

2) каталоги ресурсов (Directories)

3) метапоисковые системы (Metasearch System).

Принцип работы поисковых машин состоит в следующем: часть машины, называемая «пауком» или «спайдером», постоянно путешествует по узлам сети, собирая и обновляя информацию, кодирует её и записывает в специализированную базу данных. При поступлении от пользователя запроса в виде набора ключевых слов поисковая машина исследует свою базу данных и выдает список документов, содержащих ключевые слова, ранжированный в зависимости от частоты вхождения ключевых слов и других характеристик.

  1. Я́ндекс

Я́ндекс — российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является седьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,892 млрд, статистика за декабрь 2009 г.) и первым крупнейшим неанглоязычным поисковым сервером.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году.

Компания вышла на самоокупаемость в 2002 году, оборот за 2009 год — 278 миллионов долларов.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы Яндекс стал мультипорталом. В 2009 году Яндекс предоставляет более 30 сервисов. Самыми популярными являются: Яндекс.Картинки, Яндекс.Почта, Яндекс.Погода, Яндекс.Новости и другие.

Доля Яндекса в поисковых запросах в рунете впервые за четыре года превысила 60 %. 19 мая 2010 года компания запустила англоязычную версию своей поисковой системы на домене yandex.com, и, таким образом, вышла на международный уровень.

Поиск Яндекса

Поиск Яндекса позволяет искать документы на русском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.

С начала 2006 года по 2009 год поиск «Яндекса» был установлен на портале Mail.ru.

Охват форматов

Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Word (.doc), Excel (.xls), PowerPoint (.ppt), Flash (.swf), RSS (блоги и форумы).

Язык поисковых запросов

Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б — документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && — во всём документе.

Оператор ! позволяет отключить морфологию для конкретного слова, а !! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы связанные с омонимией. Например запрос !!Иванов будет находить Иванова и Ивано́вых, но не Ивана.

Результаты поиска

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска — по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Качество поиска

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Последнее такое изменение произошло в ноябре 2009 года, когда была выложена обновленная версия поисковой программы «Снежинск». В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам.

Индексирование в поисковых системах — процесс добавления сведений (о сайте) роботом поисковой машины в базу данных, впоследствии использующуюся для (полнотекстового) поиска информации в проиндексированных сайтах.

В сведения о сайте чаще всего входят ключевые слова (алгоритм определения ключевых слов зависит от поисковой системы), статьи, ссылки, документы, также могут индексироваться изображения и т. д.

Сайты, которые «Яндекс» не индексирует или ограничивает ранжирование:

  1. Копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.

  2. Единственной целью которых является перенаправление пользователя на другой ресурс, автоматически (редирект) или добровольно.

  3. С автоматически сгенерированным (бессмысленным) текстом.

  4. С каталогами (статей, программ, предприятий и т. п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.

  5. С невидимым или слабовидимым текстом или ссылками.

  6. Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).

  7. Предоставляющие товары или информацию по партнерским программам, но не представляющие никакой ценности для пользователя.

  8. Использующие обманные техники (например, вредоносный код, скрипты, настройки серверов), перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.

  9. Содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы и манипулирования результатами ее работы, в том числе использование элементов страниц, скрывающих ключевые слова, например, посредством скроллинга или других технических приемов.

  10. Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.

  11. Немодерируемые форумы, доски объявлений, содержащие большое количество ссылочного спама.

  12. Ставящие внешние ссылки исключительно для обмана поисковых систем и «накачивания» релевантности и не являющиеся рекомендацией автора посетить ресурс.

  13. Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).

  14. Страницы сайта с результатами поиска.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]