Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

5.4. Дескрипторныеинформационно-поисковыеязыки

Выше было показано, что ни одна из классификаций, не обеспечивает возможности поиска документов по любому, заранее не заданному сочетанию признаков (характеристик). Именно поэтому с начала 50-х годов начал распространяться метод координатного индексирования документов и основанные на этом методе

дескрипторные ИПЯ.

5.4.1. Координатное индексирование

Метод координатного индексирования базируется на положении, что основное смысловое содержание документа и информационной потребности может быть с достаточной степенью точности и полноты выражено соответствующим списком так называемых ключевых слов, которые явно или в скрытом виде содержатся в тексте. Под ключевыми словами в данном случае понимаются наиболее существенные для этой цели слова и словосочетания, обладающие назывной (номинативной) функцией.

Назывные слова не обозначают предмет, а выделяют его путем указаний. К категории назывных слов относятся также имена собственные. В [Кацнельсон1965] выделяются следующие признаки назывных слов:

надситуативность, т. е. выделение определенного объекта независимо от того, присутствует он в данный момент в чувственной ситуации или нет;

неэгоцентричность (выбор слова не зависит от говорящего лица, его местоположения и времени высказывания);

объективность (опора на некие релевантные признаки предмета);

семантическая устойчивость и контрастность (в каждом акте употребления они сохраняют некое инвариантное ядро, определенный минимум признаков, необходимых для распознавания предмета).

Кроме назывных в качестве ключевых слов могут выступать также соответствующие численные характеристики, хронологические данные, диапазоны температур, давлений и т. д. Ниже приведен пример координатного индексирования реферата, помещенного в РЖ «Информатика» за 2003 г.

176

 

Управление библиотечным и информационным

 

библиотеки

 

центром. Trosow Samuel E., Libr. Quart., 2000, № 70,

 

информационные

 

153-155

 

 

 

 

 

 

центры

 

Рецензируемая книга (R. D. Stueart, B. B.

 

управление

 

Moran. Library and information center management,

 

функции

 

5th ed. Englewood, Colo.: Libraries Unlimited Inc.,

 

руководителей

 

1998, xxv, 509 p.), вышедшая уже в 5-м издании,

 

рецензии

 

давно стала стандартным учебником по курсу

 

США

 

управления

в

рамках

библиотечной

и

 

 

 

информационной науки, охват материала в котором

 

 

 

расширялся с каждым очередным изданием. В

 

 

 

предисловии отмечается, что значительные

 

 

 

изменения в окружающих условиях, вызванные

 

 

 

внутренними и внешними факторами, требуют

 

 

 

более систематичного подхода к обзору функций в

 

 

 

условиях организации. Технология, политическая,

 

 

 

экономическая и социальная среда указываются как

 

 

 

наиболее мощные силы для изменений. При

 

 

 

подготовке данного издания авторы решили

 

 

 

сохранить классическую структуру, включающую

 

 

 

планирование, организацию, подбор персонала,

 

 

 

определение

направлений,

координацию

и

 

 

 

финансирование. Они считают такой подход

 

 

 

продуктивным и не признают постоянной критики

 

 

 

данной структуры со стороны современных

 

 

 

теоретиков по организации. Помимо отдельных

 

 

 

глав, посвященных перечисленным вопросам,

 

 

 

авторы уделяют большое внимание теории

 

 

 

организации, связи социологической теории и ее

 

 

 

применений

в

организационном

анализе,

 

 

 

различным уровням анализа, на которых могут

 

 

 

изучаться организационные явления.

 

 

 

 

Приведенный справа от реферата алфавитный список ключевых слов образует так называемый поисковый образ. Практический опыт показывает, что для координатного индексирования одного документа обычно бывает достаточно 6-12 ключевых слов.

Таким образом, координатное индексирование — это способ выражения основного смыслового содержания документа или информационной потребности в виде определенной совокупности ключевых слов. Координатное индексирование называют также

методом координации понятий, коррелятивным индексированием, унитерм-индексированием, ассоциативным индексированием, комбинаторным индексированием и т. д.

177

При «чистом» координатном индексировании ключевые слова в поисковых образах никак не связаны одно с другим и функционируют самостоятельно. Для отыскания документов, отвечающих на какой-либо информационный запрос, необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами поисковых образов документов. В простейшем случае, когда поисковое предписание сформулировано в виде логического произведения (конъюнкции) некоторого множества ключевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в поисковом образе этого документа одновременно содержатся все ключевые слова поискового предписания.

Рассмотрим некоторые примеры «чистого» координатного индексирования, показывающие основные случаи недостаточности

такого подхода для обеспечения высокого качества информационного поиска36.

1.Ложная координация. Предмет информационного запроса — «Информационные системы в экономике». Поисковое предписание сформулировано так: информационные системы, экономика. В ответ на такое поисковое предписание документальная ИПС выдаст как релевантный запросу документ «Информационная система по экономическому и социальному планированию», так и не отвечающий запросу документ «Экономика информационных систем», т.к. оба поисковых образа содержат ключевые слова информационные системы

иэкономика. В данном случае недостаточно использовать в запросе только координатную связь между ключевыми словами в поисковом образе документа.

2.Неполная координация. Предмет информационного запроса — «Вклад поставщика в разработку электронных каталогов». В данном случае поисковое предписание может быть сформулировано так:

поставщики, электронные каталоги, разработка. В результате поиска по такому запросу документальная ИПС выдаст нерелевантный документ «Вклад пользователя в разработку электронных каталогов: точка зрения поставщика», т.к. поисковый образ документа содержит ключевые слова поставщики, пользователи, электронные каталоги,

разработка. Причина выдачи нерелевантного документа заключается в том, что для формулировки поискового предписания были использованы ключевые слова, достаточные для выражения предмета информационного запроса, но недостаточные для выражения предмета документа.

3.Синонимия, полисемия и омонимия ключевых слов.

Предположим, что предмет информационного запроса — «Применение анкетирования при изучении информационных запросов пользователей». Поисковое предписание сформулировано следующим

36 Эти примеры приводятся в целях иллюстрации, и поэтому им намеренно придан тривиальный характер.

178

образом: информационная потребность, пользователи, анкетирование.

Документальная ИПС при этом не выдаст в ответ на такой запрос явно релевантный документ «Изучение информационных потребностей пользователей Канадской информационной системы по полярным исследованиям», при индексировании которого были использованы ключевые слова информационные системы, информационная потребность, пользователи, анкетный опрос. Причина невыдачи релевантного документа заключается в том, что вместо ключевого слова анкетирование в поисковом образе документа был использован его синоним анкетный опрос.

Случай полисемии иллюстрируется, например, использованием в информационном запросе ключевого слова базы данных. В ответ на такой запрос (если не было дополнительного уточнения) будут выданы документы о полнотекстовых, реферативных, библиографических, фактографических базах данных, хотя реально документы по какомлибо из этих видов баз данных могут не соответствовать информационному запросу.

4. Необозначенностъ родо-видовых связей между ключевыми словами. Пусть предмет информационного запроса — «Библиотечное дело в Европе». Тогда поисковое предписание будет сформулировано следующим образом: библиотечное дело, Европа. В ответ на такое поисковое предписание не будет, например, выдан соответствующий информационному запросу документ «Школы, библиотеки и новая политическая система Венгрии», т.к. в его поисковом образе присутствуют ключевые слова библиотечное дело и Венгрия.

5. Ложные синтагматические связи. Предмет информационного запроса — «Передача электроэнергии из Шотландии в Англию»,

поисковое предписание: передача, электроэнергия, Шотландия, Англия.

Документальная ИПС выдает документ «Передача электроэнергии из Англии в Шотландию», хотя этот документ не соответствует информационному запросу. В данном случае ИПС выдала нерелевантный документ, хотя имело место точное совпадение поискового предписания с поисковым образом документа. Отсюда следует, что для предотвращения выдачи нерелевантных документов необходимо, чтобы ключевые слова поисковых образов документов и ключевые слова поисковых предписаний можно было связывать более сильными синтагматическими связями, чем простая координация.

179