- •1. Автоматический анализ текстов
- •2. Первый закон Зипфа "ранг - частота"
- •3. Второй закон Зипфа "количество - частота"
- •4. Весовые коэффициенты
- •5. Представление базы данных
- •5.1. Матричное представление базы данных
- •5.2. Пространственно-векторное представление базы данных
- •6. Стратегия поиска
- •7. Проверка метода на практике
7. Проверка метода на практике
Разумеется, предлагаемый метод поиска нельзя назвать универсальным. Далеко не все поисковые машины воспримут его с одинаковым восторгом. Какими же свойствами должна обладать поисковая система, чтобы применение метода было оправдано? Множество факторов оказывают влияние на результат. Это и общий объем базы данных, и механизм индексации, структура данных и так далее, и тому подобное. Но наиболее важными являются два умения поисковой системы: ☻ способность понимать запросы, составленные на разных языках (для нас - на русском), и ☻ мощное ранжирование результатов. С русским языком все понятно - без него нам в Интернете не интересно. Но почему так важно ранжирование? Мы договорились вводить запрос с логикой ИЛИ. Это сильно увеличивает количество возвращаемых поисковой машиной документов. Без ранжирования всякий поиск теряет смысл. Наилучшие результаты дает ранжирование по схеме:
точное соответствие - все слова запроса - все слова, кроме последнего, - все слова, кроме двух последних, - ... - все слова, кроме n последних, - первое слово (плюс, разумеется, ранжирование по количеству терминов в тексте). Алгоритм может быть и более мощным, но даже при такой последовательности мы можем быть уверены, что, сколько бы документов найдено ни было, наиболее удачные окажутся впереди.
Наилучшие результаты в поиске по предлагаемому методу продемонстрировала система AltaVista (www.altavista.digital.com). (Это неудивительно, ведь метод разрабатывался с оглядкой именно на нее.)
Хотя на тестовый запрос система выдала более 5 миллионов ссылок, для англоязычного запроса на первых трех страницах все ссылки оказались абсолютно релевантными! (причем документ-источник появился только на третьей странице.)
Для русского текста из десяти ссылок на первой странице точными оказались только первые восемь. Однако при ближайшем изучении выяснилось, что это все, что есть в Интернете на искомую тему.
►Что происходило на других поисковых системах? Картина сложилась пестрая. Одни справились не хуже лидера, другие не справились вовсе. Но надо понять: неудача говорит не о несовершенстве той или иной поисковой системы или метода, а лишь о неприменимости выбранного метода поиска для данной поисковой машины. Начнем с зарубежных систем.
☻ Очень хороший результат в поиске на английском языке показал HotBoot (www.hotbot.com) . Запрос же на русском языке поставил его в тупик.
☻ Оценить Yahoo! не удалось из-за характерной формы вывода результатов.
☻ Более скромные поисковые машины Northern Light, Excite, Infoseek и др. хотя и выполнили задание, но обилием релевантных ссылок не поразили. Для английского на первых страницах оказалось 40-60% релевантных ссылок. При обработке запроса на русском языке эти системы проявили любопытное единодушие. Было найдено множество документов, но никакого ранжирования не было проведено вовсе. В итоге на первую страницу могло попасть, случайно, от силы один-два релевантных документа.
☻ Для системы "Апорт!" выбранная методика оказалась полностью чужда.
☻ Rambler представил хорошие результаты только после того, как логика запроса была изменена на И. На первой странице все документы, как для русского, так и английского поиска, оказались полностью релевантными. Но, логика И неизбежно ведет к потере весомой части релевантных документов.
☻ С поиском на английском языке отлично справился Яndex (yandex.ru) - стопроцентная релевантность на первой странице для англоязычного запроса. Однако русский запрос был обработан заметно слабее.
Изучение отклика российских поисковых систем привело к парадоксальному (и крамольному) выводу: морфологическая обработка не обязательно увеличивает число релевантных документов! Разумеется, это утверждение не бесспорно. Для других методик поиска морфологический анализ может оказаться незаменимым; в предлагаемой же нами - он явно лишний. Недаром так хорошо справилась с задачей AltaVista - в ней даже английский текст морфологически не обрабатывается. Все слова для нее, за редким исключением (имеется в виду стоп-лист, но он создается только для англоязычных и близких к ним текстов), лишь последовательность символов.
Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Он незаменим, когда нужно найти как можно больше документов на заданную тему. Чтобы облегчить его, по адресу www.shipbottle.ru/ir/ вы найдете апплет, реализующий метод.
Источник: Поиск в Интернете -- внутри и снаружи. Эффективная методика поиска информации в сети Интернет. Артем ПОПОВ http://citforum.ru/pp/search_03.shtml