Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекція 13.doc
Скачиваний:
3
Добавлен:
05.12.2018
Размер:
145.92 Кб
Скачать

3.22. Пошук інформації в Інтернеті

Обсяги і темпи росту Веб-ресурсів вражають уяву. Швидкий та інтенсивний розвиток Інтернету породив ряд парадоксів, основний з яких такий: експонентний ріст обсягів інформації в Інтернеті приводить одночасно і до ускладнення пошуку дійсно необхідної інформації, і все більшої актуальності цього процесу. Іншими словами, даних усе більше, а знайти їх все складніше.

Зараз навіть за самих витончених методів побудови пошукових запросів могутні пошукові системи видають часом сотні, а іноді й тисячі посилань. У цих випадках високий рівень інформаційного „шуму” (тобто документів, формально релевантних, але не відповідних інформаційним потребам користувача) знижує ефективність наявних механізмів пошуку.

Цілком резонно виникає питання, як конкретному користувачу знайти та відібрати в мережі необхідні дані?

Існує кілька тактичних підходів.

Перший з них умовно називається „серфінгом”.

Зачепивши одну з Веб-сторінок, адреса якої була відома, можна пройти по посиланням з цієї сторінки на будь-яку глибину, намагаючись задовольнити свої інформаційні потреби. Варіант досить розповсюджений, однак його навряд чи можна вважати оптимальним.

Другий підхід, прийнято називати „браузингом”.

Це розширення серфінгу в тім сенсі, що користувач використовує Інтернет каталог, як стартову сторінку, тобто один з Веб-серверів, на якому представлена класифікація мережевих ресурсів і знаходяться відповідні гіпертекстові посилання.

Третій підхід складається у використанні мережевих інформаційно-пошукових систем.

Інформаційно-пошуковою системою називається програма, що дозволяє швидко знайти потрібну інформацію в базі даних.

У цьому випадку користувач може самостійно з клавіатури свого комп’ютера вводити запити в інтерактивному режимі, аналізувати результати пошуку, здійснювати переходи до необхідних ресурсів.

Саме третій підхід, тобто виявлення необхідних відомостей в Інтернеті за допомогою спеціальних пошукових засобів, найкращий для знаходження необхідних даних у мережі. У рамках цього підходу для запобігання інформаційного шуму широке поширення одержала практика звуження області пошуку до деякого прийнятного рівня шляхом підключення різних фільтрів на стадії побудови запиту. З цією метою, як правило, використовуються багаторівневі тематичні класифікатори. Деякі системи дозволяють користувачеві задавати додаткові параметри — діапазони дат документів, доменні імена посилань і т. ін. За установки такого роду фільтрів, пошук здійснюється на підмножині документів, що задовольняють заданим умовам. Як і за другого підходу (але не так явно), проблема полягає в тому, що класифікатори будуються розробниками пошукових систем, відповідно до їх суб'єктивних представлень про приналежність конкретного документа до певної рубрики, що далеко не завжди збігається з представленнями користувача.

3.23. Запит для інформаційно-пошукових систем

При виконанні пошуку в Інтернеті центральним завданням користувача є побудова запиту.

1. Практично у всіх інформаційно-пошукових системах застосовується метод ключових слів. А саме, відбираються документи, що містять (або ж не містять) слова, зазначені в запиті, або їх визначені сполучення. При цьому найчастіше практично неможливо зафіксувати семантичні характеристики документа, але саме вони, у кінцевому рахунку, визначають його істінну релевантність. Наприклад, у документі, присвяченому шаховій темі, саме слово „шахи” може бути відсутнім, зате воно може фігурувати як метафора в політичному памфлеті. Навіть проблема синонімів (з погляду комп’ютера „футболіст” і „гравець у футбол” є різними інформаційними елементами) ефективно вирішується далеко не у всіх інформаційно-пошукових системах. У той же час, за запитом „коза” користувач цілком може одержати посилання з зоології, з сільського господарства, з історії мафії („Коза Ностра”), а також на роман Д. Дефо „Робінзон Крузо” у повному обсязі.

2. Крім проблеми інформаційного шуму, важливу роль у технології пошуку відіграє повнота інформації.

Практика показує, що за допомогою однієї пошукової системи можна знайти не більш третини розміщених у Веб-просторі документів. Причому, як це на перший погляд не парадоксально, російський та український сегменти Веб-простору представлені на пошукових серверах значно повніше, що пояснюється їх відносно невеликими інформаційними обсягами і наповненням.