Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные системы.doc
Скачиваний:
23
Добавлен:
01.06.2015
Размер:
236.54 Кб
Скачать

Поисковые системы: поле боя - семантика Дмитрий ландэ Феномен десятилетия

                                  

В настоящее время информационные ресурсы Сети составляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, для того, чтобы найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе данных необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом на современном рынке информационных технологий.

Мы стали свидетелями интересного явления: за 10 лет мало кому известный полнотекстовый поиск стал повседневным инструментом миллионов людей, использующих такие системы-бренды, как Altavista, Google, Alltheweb, Yahoo, каждая из которых охватывает свыше миллиарда документов. При этом далеко не все лидеры информационных технологий десятилетие назад осознали эту тенденцию. "Недостаточные инвестиции Microsoft в технологию Интернет-поиска были непростительной ошибкой компании, но она работает над тем, чтобы наверстать упущенное. Говорят, что Microsoft успевает везде, но вот вам пример того, где мы не успели", - заявил CEO корпорации Стив Баллмер, выступая перед аудиторией менеджеров по маркетингу и представителей СМИ на пятой ежегодной конференции Microsoft по рекламе в Редмонде. Microsoft с трудом протискивается на одну из самых оживленных территорий в вебе. Она упорно старается наверстать упущенное, но пока отстает от своих главных конкурентов. При этом Баллмер заявил, что в ближайшие 12 месяцев команда разработчиков Microsoft должна предложить поисковую технологию первого поколения.

Вместе с тем, ситуация на рынке поисковых систем не простая - она отражает принцип новой экономики: здесь не может быть вторых ролей. Или система - лучшая в мире, или ей никто не будет пользоваться. Система должна найти свою нишу в задаче максимального удовлетворения запросов пользователей - быть самой полной, самой демократичной, самой интеллектуальной или самой локализированной.

Характеристики поисковых систем

Основополагающими характеристиками информационно-поисковых систем является полнота и релевантность результатов поиска. Полнота поиска тесно связано с оперативностью охвата информации системой. Созданная однажды база данных Интернет-ресурсов является "слепком" состояния Сети в конкретный момент. Если эта база не будет обновляться постоянно и оперативно, присутствующие в ней ссылки на документы станут мертвыми. Кроме того, отсутствие оперативности, обновления баз данных не позволит пользователю отслеживать последние изменения в его предметной области.

Кроме характеристик полноты и релевантности для пользователей ИПС, большое значение имеют такие характеристики, как скорость обработки запросов, получения отклика от системы, достоверность отклика (например, оцениваемая по ее источникам), а также дополнительные сервисы - возможность нахождения документов, подобных уже имеющимся (like this), возможность подключения автоматических переводчиков и, конечно же, возможность уточнения запроса непосредственно после выполнения процедуры поиска.

Сегодня информации в Сети появляется больше, чем ее успевают проиндексировать поисковые системы. Поэтому идет жесткая конкурентная борьба, связанная с этим аспектом. Ведущими по охвату информационных ресурсов Интернет являются поисковые системы Google и Alltheweb. Вместе с тем, даже эти системы охватывают всего лишь третью часть существующих Web-страниц. Количество поисковых серверов, охватывающих Интернет, а не отдельные его части, ограничено несколькими десятками, лидерами в которых являются такие, как:

http://www.google.com http://www.alltheweb.com http://www.altavista.com http://www.yahoo.com http://www.msn.com http://www.aol.com http://www.lycos.com

Среди российских поисковых серверов особого внимания заслуживают три - это Яндекс (http://www.yandex.ru), Рамблер (http://www.rambler.ru) и Апорт (http://www.aport.ru). В Украине две лидирующих поисковых системы - МЕТА (http://meta.ua/) - по стабильной части украинского сегмента Сети и UAport (http://uaport.net/) - по новостной части.

Полнота охвата ресурсов Сети - это один из двух главных аспектов характеристики полноты сетевой информационно-поисковой системы. Второй аспект связан с полнотой информации, предъявляемой пользователю по его запросу. Если предположить, что по запросу пользователя Q в базе данных находятся Р (при Р ( 0) документов, соответствующих этому запросу, а предъявлено для просмотра всего N документов, то полнота системы определяется по формуле: П=(N/P)x100%. В случае, если П оказывается больше 100%, очевидно, что пользователю выдано минимум N-P документов, не соответствующих его запросу, т.е. нерелевантных.

Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу. Если по запросу пользователя получено N документов, представляющих собой объединение двух множеств документов: соответствующих запросу (пусть их количество - N1), и не соответствующих (их количество - N2), т.е. N = N1+N2. Тогда релевантность, как степень соответствия, определяется по формуле: Р = (N1/N)x100%, а шум - по формуле: S = (N2/N)x100% = 100% - P. Это определение характерно для формальной релевантности, однако, на практике используется другое, неформальное понятие - пертинентность.