Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сл_Методика поиска информации в сети Интернет(З...docx
Скачиваний:
6
Добавлен:
14.11.2019
Размер:
144.73 Кб
Скачать

7. Проверка метода на практике

Разумеется, предлагаемый метод поиска нельзя назвать универсальным. Далеко не все поисковые машины воспримут его с одинаковым восторгом. Какими же свойствами должна обладать поисковая система, чтобы применение метода было оправдано? Множество факторов оказывают влияние на результат. Это и общий объем базы данных, и механизм индексации, структура данных и так далее, и тому подобное. Но наиболее важными являются два умения поисковой системы: ☻ способность понимать запросы, составленные на разных языках (для нас - на русском), и ☻ мощное ранжирование результатов. С русским языком все понятно - без него нам в Интернете не интересно. Но почему так важно ранжирование? Мы договорились вводить запрос с логикой ИЛИ. Это сильно увеличивает количество возвращаемых поисковой машиной документов. Без ранжирования всякий поиск теряет смысл. Наилучшие результаты дает ранжирование по схеме:

точное соответствие - все слова запроса - все слова, кроме последнего, - все слова, кроме двух последних, - ... - все слова, кроме n последних, - первое слово (плюс, разумеется, ранжирование по количеству терминов в тексте). Алгоритм может быть и более мощным, но даже при такой последовательности мы можем быть уверены, что, сколько бы документов найдено ни было, наиболее удачные окажутся впереди.

Наилучшие результаты в поиске по предлагаемому методу продемонстрировала система AltaVista (www.altavista.digital.com). (Это неудивительно, ведь метод разрабатывался с оглядкой именно на нее.)

Хотя на тестовый запрос система выдала более 5 миллионов ссылок, для англоязычного запроса на первых трех страницах все ссылки оказались абсолютно релевантными! (причем документ-источник появился только на третьей странице.)

Для русского текста из десяти ссылок на первой странице точными оказались только первые восемь. Однако при ближайшем изучении выяснилось, что это все, что есть в Интернете на искомую тему.

►Что происходило на других поисковых системах? Картина сложилась пестрая. Одни справились не хуже лидера, другие не справились вовсе. Но надо понять: неудача говорит не о несовершенстве той или иной поисковой системы или метода, а лишь о неприменимости выбранного метода поиска для данной поисковой машины. Начнем с зарубежных систем.

☻ Очень хороший результат в поиске на английском языке показал HotBoot (www.hotbot.com) . Запрос же на русском языке поставил его в тупик.

☻ Оценить Yahoo! не удалось из-за характерной формы вывода результатов.

☻ Более скромные поисковые машины Northern Light, Excite, Infoseek и др. хотя и выполнили задание, но обилием релевантных ссылок не поразили. Для английского на первых страницах оказалось 40-60% релевантных ссылок. При обработке запроса на русском языке эти системы проявили любопытное единодушие. Было найдено множество документов, но никакого ранжирования не было проведено вовсе. В итоге на первую страницу могло попасть, случайно, от силы один-два релевантных документа.

☻ Для системы "Апорт!" выбранная методика оказалась полностью чужда.

☻ Rambler представил хорошие результаты только после того, как логика запроса была изменена на И. На первой странице все документы, как для русского, так и английского поиска, оказались полностью релевантными. Но, логика И неизбежно ведет к потере весомой части релевантных документов.

☻ С поиском на английском языке отлично справился Яndex (yandex.ru) - стопроцентная релевантность на первой странице для англоязычного запроса. Однако русский запрос был обработан заметно слабее.

Изучение отклика российских поисковых систем привело к парадоксальному (и крамольному) выводу: морфологическая обработка не обязательно увеличивает число релевантных документов! Разумеется, это утверждение не бесспорно. Для других методик поиска морфологический анализ может оказаться незаменимым; в предлагаемой же нами - он явно лишний. Недаром так хорошо справилась с задачей AltaVista - в ней даже английский текст морфологически не обрабатывается. Все слова для нее, за редким исключением (имеется в виду стоп-лист, но он создается только для англоязычных и близких к ним текстов), лишь последовательность символов.

Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Он незаменим, когда нужно найти как можно больше документов на заданную тему. Чтобы облегчить его, по адресу www.shipbottle.ru/ir/ вы найдете апплет, реализующий метод.

Источник: Поиск в Интернете -- внутри и снаружи. Эффективная методика поиска информации в сети Интернет. Артем ПОПОВ http://citforum.ru/pp/search_03.shtml

19