Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_imek_doc.doc
Скачиваний:
0
Добавлен:
17.09.2019
Размер:
359.94 Кб
Скачать
  1. Поисковая система включает в себя такие компоненты:

Spider (“паук”) – эта программа скачивает веб-страницы точно так же, как и пользовательский браузер. Но! Браузер показывает всю информацию, которая имеется на странице (графическую, текстовую и т.д.), тогда как паук не обладает никакими визуальными компонентами и работает сразу с html-текстом.

Indexer (индексатор) – индексатор занимается разбором страницы на составляющие, затем анализирует их. Он выделяет и анализирует разные компоненты страницы: текст, заголовки, стилевые и структурные особенности, html-тэги и прочее.

Search Engine Results Engine – это система выдачи результатов. В ее задачи входит решение того, насколько возможные страницы удовлетворяют запрос пользователя, а также, в каком порядке отсортировать результаты поиска. Этот процесс осуществляется согласно алгоритму ранжирования поисковой системы. Такая информация наиболее ценна для оптимизатора, именно с этим компонентом следует взаимодействовать при попытке повысить позиции сайта в выдаче результатов поиска.

Crawler – этот компонент выделяет все ссылки, имеющиеся на странице. В его задачу входит определение последующего пути паука. Вычисление этого пути основывается на ссылках или исходя из заданного заранее ряда адресов. Crawler следует по найденным ссылкам и так осуществляет поиск новых документов, которые еще неизвестны поисковой системе.

Database – это база данных, в ней хранятся все данные, которые скачивает и анализирует поисковая система. Базу данных могут называть и индексом поисковой системы.

Web server – на сервере обычно присутствует html-страница с полем ввода, где пользователи могут задать интересующий их поисковый термин. Веб-сервер тоже отвечает за результаты, выдаваемые пользователю, в виде html-страницы.

  1. Индекс поисковой системы и индексация сайта.

Индекс поисковой системы — это хранящаяся на поисковом сервере база данных, по которой осуществляется поиск запрошенной пользователем информации. Как правило, содержит ссылки на проиндексированные ресурсы и сжатые копии веб-страниц.

Копия страницы в индексе представляет собой инвертированный файл, где для каждого слова, имеющегося в исходном документе, перечислены позиции, в которых оно встречается. При этом отбрасываются стоп-слова, слова могут приводиться к исходной форме.

Индекс пополняется поисковым роботом во время периодических обходов Интернета.

Индексация сайта. Индексация сайта (страниц) – процесс обхода страниц сайта роботами поисковой машины и занесение их в поисковую базу. Данная процедура необходима для того, чтобы поисковая система имела представление о существовании того или иного сайта и возможности использования его в результатах поиска.

(База данных, в которой поисковая система хранит свой "словарный запас", то есть набор встречающихся на интернет-страницах слов и словосочетаний. Этот массив текстовых составляющих соотнесен с адресами тех веб-страниц, на которых они встречаются, и постоянно пополняется новой информацией, собираемой роботом-"пауком" поисковой системы. Индекс используется системой для поиска страниц с вхождениями заданных запросом ключевых слов.

Для того, чтобы сайт появлялся в списке выдачи поисковой системы по определенным запросам, он (или хотя бы определенная часть его страниц) должен быть занесен в индекс данной поисковой системы. Робот поисковика узнает о новом сайте двумя путями – обращением со стороны владельца сайта или наличием ссылок с проиндексированных сайтов на данный сайт. Ручное добавление сайта в индекс производится заполнениемспециальной формы и последующей ее обработкой модераторами системы, которые лишь добавляют адрес сайта в очередь на индексацию. Иногда этот процесс занимает куда большее время, чем автоматическое посещение роботом страниц сайта. Поэтому предпочтительнее обеспечить для сайта несколько внешних ссылок и дождаться визита робота.

Время, необходимое для добавления сайта в индекс поисковой системы при наличии внешних ссылок, обычно составляет от 2 до 15 дней, в зависимости от конкретного поисковика. Быстрее всех добавляет сайты в свой индекс Google.

Для попадания в индекс максимального объема текста ресурса необходимо придерживаться определенных правил: не создавать сайт сложной иерархической структуры, не использовать или дублировать навигацию через скрипты, не размещать на странице чересчур длинный текст и т. п.)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]