Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ашманов - Информация и знания.docx
Скачиваний:
11
Добавлен:
09.05.2015
Размер:
46.18 Кб
Скачать

Каталоги — лучше, чем поиск?

Ничто не может заменить оглавления, и в мире информационных технологий оглавления используются очень широко. В первую очередь это каталоги — т. е. рубрикаторы или классификаторы, организующие множества документов в деревья или целые заросли рубрик. В Internet такие каталоги известны не менее, чем популярные поисковые машины, прежде всего это знаменитый каталог Yahoo (www.yahoo.com). Делается это просто (по крайней мере внешне это так выглядит): создатели классификаторов придумывают достаточно логичное и прозрачное дерево категорий, а затем наполняют его ссылками на документы и прочие ресурсы и составляют к ссылкам краткие аннотации. Несмотря на наступление компьютерной эры, эта работа делается вручную, в частности, потому, что отнесение документа к нужным рубрикам — процесс в высшей степени неформальный. Например, каталог Yahoo непрерывно наполняют содержанием (ссылками и аннотациями) несколько тысяч человек, являющихся специалистами в той или иной области (т. е. категории документов). Впрочем, сейчас появляются средства автоматической классификации и аннотирования документов, о чем подробнее сказано несколько ниже. Точно так же строятся каталоги и классификаторы вне Internet, в частности в правовых справочных базах данных, в корпоративных информационных системах и проч. Каталоги предоставляют более удобный вид доступа к данным, так как они больше, чем поисковые машины, похожи на знания за счет своей структурированности. Однако для эффективного использования каталога пользователю нужно еще угадать принцип структуризации, который был применен при его создании и который зачастую существует только в головах авторов каталога. Поэтому для компенсации неудобств каталогов (если уж пользователь не знает, на какой ветке дерева «по логике» данного каталога лежит нужная ссылка, то не найдет ее никогда), каталоги в последнее время стали включать и средства поиска. И наоборот — поисковые машины стали снабжаться каталогами; в частности обзавелся своим тематическим каталогом ресурсов ветеран русского Internet «Рамблер». Видимо, в дальнейшем эти два вида доступа окончательно переплетутся; вопрос только в том, как автоматизировать составление каталогов.

Аннотирование.

Если помните, в старых книгах каждая глава начиналась с краткого изложения: «Робинзон видит человеческие следы, находит Пятницу, приучает его солить пищу, собирает первый урожай киви». Эти изложения (аннотации) выносились в оглавления, что лично мне представляется очень гуманным; жаль, что современные авторы так не делают. Существующие каталоги также по возможности содержат аннотации для внесенных в них ссылок. Например, Yahoo содержит аннотированные ссылки на 500 000 Internet-страниц, разбитых на 25 000 категорий. Как говорилось выше, аннотации составляются вручную, скажем для сервера по экологическим проблемам — специалистом по экологии, а по медицинскому серверу — специалистом по медицине (а может быть, и по тому и по другому — одним и тем же специалистом по биологии, не знаю). Русский аналог Яху — Ау! — составляется точно так же, только специалистов в нем работает не тысячи, а в лучшем случае один-два десятка, аннотированных ресурсов — около 12 000. Однако даже для каталогов по узким темам или географически ограниченным областям Internet ручная классификация и аннотирование начинают представлять собой проблему — количество информации в Internet растет «по экспоненте», сложность системы, количество связей, дублей и проч. также возрастает. Возникает потребность в автоматизации каталожной работы, в частности в автоматическом составлении аннотаций. Ниже в разделе «Автоматическое извлечение знаний» я расскажу о том, что сделано в этой области.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]