Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дипломна робота Пошукові системи.doc
Скачиваний:
27
Добавлен:
26.10.2018
Размер:
1.67 Mб
Скачать

1.3.9. Роботи пошукової системи

Роботи пошукової системи ("Web-Павук", павук, спайдер, краулер) - програма, що є складовою частиною пошукової системи й призначена для обходу сторінок Інтернету з метою занесення інформації про їх (ключові слова) у базу пошуку.

По своїй суті павук найбільше нагадує звичайний браузер. Він сканує вміст сторінки, закидає його на сервер пошукової машини, якій належить і відправляється по посиланнях на наступні сторінки. Крім звичайних павуків, існують так звані "дятли" - роботи, які "простукують" проіндексований сайт, щоб визначити, що він підключений до інтернету.

Порядок обходу сторінок, частота візитів, захист від зациклення, а також критерії виділення ключових слів визначається алгоритмами пошукової машини.

У більшості випадків перехід від однієї сторінки до іншої здійснюється по посиланнях, що втримується на першій і наступній сторінках.

Роботи не розуміють фреймів, Flash анімацій, зображень або JavaScript. Вони не можуть зайти в розділи, захищені паролем і не можуть натискати на всі ті кнопочки, які є на сайті. Вони можуть "заткнутися" у процесі індексування динамічних адрес URL і працювати дуже повільно, аж до зупинки й безсиллям над JavaScript-Навігацією.

Також багато пошукових систем надають користувачеві можливість самостійно додати сайт у чергу для індексування. Звичайно це істотно прискорює індексування сайту, а у випадках, коли ніякі зовнішні посилання не ведуть на сайт, взагалі виявляється єдиною можливістю заявити про його існування.

Обмежити індексацію сайту можна за допомогою файлу robots.txt, однак деякі пошукові системи можуть ігнорувати наявність цього файлу. Повний захист від індексації забезпечується механізмами, обійти які поки павукам не під силу. Звичайно - установкою пароля на сторінці, або вимогою заповнити реєстраційну форму перед тим, як одержати доступ до вмісту сторінки

Більшість користувачів інтернету шукають інформацію про потрібні товари й послуги, вдаючись до допомоги провідних пошукових систем, таких як Yandex, Rambler, Google, Aport. Ці розвідувачі дають сайту 60%, 17%, 15%, 2% відвідувачів - відповідно. При цьому майже 90% всіх користувачів задовольняються результатами видачі першої "Десятки" по заданих запитах, і тільки 10% користувачів ідуть на другу сторінку й менш 3% далі. Саме тому Вам так важлива оптимізація сайту для влучення його в "Десятку" видачі по запиту, і особливо Яндекса! Тому реєструватися в найбільш значимих пошукових системах потрібно вручну. Використовувати для цього автоматизовані сервіси не рекомендується

Як працюють роботи пошукової машини?

Пошукові роботи варто сприймати, як програми автоматизованого одержання даних, що подорожують по мережі в пошуках інформації й посилань на інформацію

Коли, зайшовши на сторінку "Submit a URL", ви реєструєте чергову web-сторінку в розвідувачі - у чергу для перегляду сайтів роботом додається новий URL. Навіть якщо ви не реєструєте сторінку, безліч роботів знайде ваш сайт, оскільки існують посилання з інших сайтів, що посилаються на ваш. От одна із причин, чому важливо будувати посилальну популярність і розміщати посилання на інших тематичні ресурсах

Заходячи на ваш сайт, роботи спочатку перевіряють, є чи файл robots.txt. Цей файл повідомляє роботів, які розділи вашого сайту не підлягають індексації. Звичайно це можуть бути директорії, що містять файли, якими робот не цікавиться або йому не варто було б знати

Роботи зберігають і збирають посилання з кожної сторінки, що вони відвідують, а пізніше проходять по цих посиланнях на інші сторінки. Вся всесвітня мережа побудована з посилань. Початкова ідея створення Інтернет мережі була в тім, що б була можливість переміщатися по посиланнях від одного місць до іншого. От так переміщаються й роботи

"Дотепність" відносно індексування сторінок у реальному режимі часу залежить від інженерів пошукових машин, які винайшли методи, використовувані для оцінки інформації, одержуваної роботами розвідувача. Будучи впроваджена в базу даних пошукової машини, інформація доступна користувачам, які здійснюють пошук. Коли користувач пошукової машини вводить пошуковий запит, виробляється ряд швидких обчислень для впевненості в тому, що видається дійсно правильний набір сайтів для найбільш релевантної відповіді.

Ви можете переглянути, які сторінки вашого сайту вже відвідав пошуковий робот, керуючись лог-файлами сервера, або результатами статистичної обробки лог-файлу. Ідентифікуючи роботів, ви побачите, коли вони відвідали ваш сайт, які сторінки і як часто. Деякі роботи легко ідентифікуються по своїх іменах, як Google "Googlebot". Інші більше сховані, як, наприклад, Inktomi "Slurp". Інші роботи так само можуть зустрічатися в логах і не виключено, що ви не зможете відразу їх ідентифікувати; деякі з них можуть навіть виявитися броузерами, якими управляють люди.

Крім ідентифікації унікальних пошукових роботів і підрахунку кількості їхніх візитів, статистика також може показати вам агресивну, поглинаючу ширину катала пропущення роботів або роботів, небажаних для відвідування вашого сайту.