Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
635
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

среде АИПС, но эффективность процесса его составления определяется не только интерфейсными возможностями системы, но также и информационной грамотностью и профессионализмом пользователя.

Для человека идеальной коммуникативной формой представления знаний и потребностей является вербальная – в виде терминологического выражения. Принципиально важной особенностью вербального способа является изначальная контекстная определенность (хотя этот контекст, возможно, представлен только в сознании высказывающего). Т. е. отдельное высказывание, как грамматическая форма (предложение), в общем случае может порождать в сознании воспринимающего несколько смыслов, а исходный смысл высказывания будет воспринят только при условии одновременной передачи исходного контекста.

Запрос с точки зрения способа его представления – это так же, как и в случае документа, терминологическое выражение, представляющее гипотетический объект через описание свойств (атрибутов, связей), наличие которых как признаков (зачастую уже безотносительно характера атрибутов и связей) должна проверить ИС в документах БД. То есть ПОЗ должен быть построен по типу вопроса «Есть ли?».

Вербальной форме запроса свойственно то, что она предполагает построение завершенного, логически и синтаксически правильного выражения. Такой подход «по духу» отражает стремление к точности выражения, исключающей возможность многозначности ответа, и, соответственно, в минимальной степени учитывает свойство комбинативности. В условиях, когда семантическая неопределенность отсутствует (поисковая задача первого типа), вербальная форма, безусловно, предпочтительнее, как предпочтительнее аналитический способ задания математической функции по сравнению, например, с табличным.

С другой стороны, содержание потребности частично или полностью может быть представлено уже существующими документами (как сообщениями, содержащими частные решения проблемной ситуации или имеющими ними какую-либо семантическую общность). В этом случае можно говорить о кластерной форме запроса.

41

Эти формы являются альтернативными, но скорее взаимодополняющими, чем взаимно исключающими, что воплотилось в практике АИПС в виде двух уже привычных форм поискового запроса в диалоге «человек-система» запросно-ответной и гипер-

текстовой.

С точки зрения свойства комбинативности и запрос, и документ являются моделями, представляющими средствами языка отдельные части и аспекты некоторого целостного фрагмента предметной области. Но при этом, цель создания ПОД – представить изначально уникальный смысл документа компактной композицией признаков (например, в случае дескрипторных ИПЯ – ключевыми словами), по возможности, не увеличивая комбинативность порождаемых ими возможных смыслов. Цель построения ПОЗ – сохраняя уникальность проблемной ситуации, увеличить комбинативность смыслов, порождаемых композицией поисковых признаков запроса, для того, чтобы максимально охватить аспекты представления объекта поиска.

Тот факт, что пользователь за новым знанием обращается в массив уже известного знания (хотя, возможно, и противоречивого1), предопределяет очевидность того, что запрос представляется в виде гипотетического документа, описывающего реальный, создаваемый или воображаемый объект. То есть в этом контексте задача поиска может быть сформулирована следующим образом:

найти уже существующие документы, которые являются содержательным аналогом запрашиваемого гипотетического.

1.6. Обобщенная схема поиска

Резюмируя ранее приведенное, можно сказать, что эффективность информационного поиска определяется следующими факторами:

- свойством концентрации-рассеяния информации, предопределяющим априорную неполноту любого отдельного ИР – источника информации практически по любой теме. Любой ресурс всегда ориентирован не только тематически (по отраслям знаний) и на

1 Массив системы включает и документы, содержащие сведения, которые могут быть неполными, непроверенными, взаимно противоречивыми.

42

определенный вид информации (НТД, патенты, отчеты НИР и т. д.), но также имеет свои системы представления и средства доступа

кинформации;

-свойством эмерджентности информации, предполагающим множественность и комбинативность использования любого информационного сообщения;

-свойствами информационно-поисковой деятельности, зависящей как от характера задач ОД, так и от особенностей человека – его возможностей по восприятию и интерпретации найденных документов (информация может быть потенциально полезной, но актуально не воспринятой, например, по причине недостаточности знаний получившего её потребителя);

-свойствами вычислительной среды реализации АИПС, для которой характерна жесткость процедур и предопределенная ограниченность форм представления информации.

В целом процесс информационного поиска может быть представлен как итеративная цепочка операций, выполняемых в совокупной человеко-машинной среде (сознании человека и в вычислительной машине), последовательно снимающей неопределенности, обусловленные перечисленными ранее свойствами информации, и в итоге реализующей своеобразное преобразование информационной потребности в совокупность документов, содержание которых удовлетворяет эту потребность, т. е. информация найденных документов обеспечивает решение задачи ОД.

Укрупненный алгоритм итеративного процесса поиска информации представлен на рис. 1.3.

Такой подход позволяет рассматривать процесс поиска как

последовательное изменение состояний (этапов) взаимодействую-

щих подсистем (человека и автоматизированной информационнопоисковой системы), направленное на локализацию (снятие) неопределенностей следующих видов:

1)неопределенности соотношения «известного/неизвестного» в предмете поиска (свойственна реальной ИП);

2)неопределенности системы характеристических признаков для структуризации предмета поиска (свойственна осознанной ИП);

43

Рис. 1.3. Обобщенный алгоритм автоматизированного информационного поиска

44

3)лексической неопределенности, как фактора степени соответствия информационно-поискового языка естественнонаучному языку предметной области (свойственна выраженной ИП);

4)неопределенности критериев сравнения поисковых образов (адекватность формальных мер близости, реализованных в конкретных АИПС);

5)неопределенности интерпретации ПОДов (субъективность

инеполнота реконструирования пользователем смысла найденных документов);

6)неопределенность тематического соответствия и степени полноты представления проблематики в данном ИР.

Причем, первые четыре вида неопределенности имеют информационную природу (преобразование форм представления информации), пятая характеризует поисковый аппарат АИПС, а шестая отражает когнитивные особенности человека – приемника и генератора информации. Последняя существенна в том случае, когда в используемом ресурсе не была найдена информация, полностью обеспечивающая решение задачи ОД, и потребителю необходимо принимать одно из следующих решений:

1)продолжить поиск в этом ресурсе в надежде на то, что удастся так реформулировать запрос, что он выведет на нужный «пласт» информации;

2)перейти в другой ресурс (например, когда любая формулировка запроса дает отрицательный результат);

3)прекратить поиск и заняться непосредственно решением задачи (когда становится понятно, что легче открыть заново, чем найти описание открытия).

Не являясь практически измеримыми величинами, эти параметры, тем не менее, позволяют обозначить характер изменения состояния сторон.

Поскольку разные типы поисковых задач имеют разные типы

истепени неопределенности, достаточно очевидно, что «траектория» поиска ( циклы и число итераций) для каждого случая будет различным. И какой бы интеллектуальной система не была, роль человека будет определяющей. То есть в целом ситуация все еще отвечает тезису, что «…до тех пор, пока люди не научатся адекватно выражать на естественном языке свои информационные потреб-

45

ности, документальная ИПС должна быть организована таким образом, чтобы человек мог как бы исследовать поисковый массив, изменяя формулировку поискового предписания в зависимости от промежуточных результатов поиска» [18].

ГЛАВА 2. ТЕХНОЛОГИЧЕСКИЕ И ЛИНГВИСТИЧЕСКИЕ ОСНОВЫ ИНФОРМАЦИОННОГО ПОИСКА

2.1. Организация данных и критерии поиска

Как отмечалось ранее, процесс поиска всегда, так или иначе, сводится к процессу простого перебора – упорядоченного или случайного, полного или частичного. При этом достаточно очевидно, что степень соответствия («нужность») устанавливается не путем эмпирического «натурного» подбора – помещения очередного выбранного объекта непосредственно в конструкцию создаваемой системы, а путем сопоставления образов соотносимых объектов – описаний структуры и выполняемых функций, параметров, свойств и т. д.

Система производит отбор ПОД автоматически: механизм поиска включает в выдачу те документы, ПОЗ которых удовлетворяют формальному критерию отбора. Очевидно, что формальный (количественный) критерий соответствия может быть определен только в том случае, если соотносимые объекты имеют одинаковую природу (или приводятся к таковым), и, соответственно, сравниваемые атрибуты принадлежат одному пространству. То есть поскольку нельзя непосредственно сравнивать информационный образ с реальным объектом, для корректного соотнесения необходимо либо создать описание реального объекта, либо по образу (описанию) построить объект или его «действующий» макет – эквивалент объекта, удовлетворяющий требованиям решаемой задачи.

В отличие от логики сознания человека, где вопросы имеют форму «как», «почему», предполагающую развернутую форму от-

46

вета, машинная логика в основе своей может обрабатывать только вопросы типа «есть ли». В [15] приводится следующая типология простых (атомарных) запросов:

1). А(Е) = ? Каково значение атрибута А для объекта Е? 2). А(?) = V Какие объекты имеют значение атрибута,

равное V?

3). ?(Е) = V Какие атрибуты объекта Е имеют значение, равное V?

4). ?(Е) = ? Какие значения атрибутов имеет объект Е? 5). А(?) = ? Какие значения атрибут А имеет в наборе? 6). ?(?) = V Какие атрибуты объектов набора имеют

значение, равное V?

Для документальных систем, элементом данных, задающим смысл, является термин языка (слово, словосочетание) запрос сводится ко 2-му типу. А наиболее естественной формой критерия отбора будет являться предикат, построенный для выражения ПОЗ. Соответственно, документ считается формально релевантным (и, соответственно, включается в выдачу), если для данного документа предикат принимает значение «истина».

Простейшим вариантом критерия отбора является правило: документ считается формально релевантным, если количество общих слов, которые он имеет с запросом, не менее заданного порогового значения. Этот критерий может быть усилен путем взвешивания, в частности, двух-, трех- и многоуровневого ранжирования терминов по их важности. Сущность «весового» метода заключается в ранжировании пользователем терминов запроса по весовым коэффициентам и в последующем признании документа релевантным, если сумма весовых коэффициентов совпавших терминов больше заранее установленной величины.

Оценка семантической близости функцией «косинус» является своеобразной нормированной суммой «весовых» коэффициентов совпадающих терминов. Здесь запрос и документ представляются n-мерными векторами в пространстве терминов, где их i-е координаты принимают значения «единица» или «ноль» в зависимости от того, входит ли i-й термин в соответствующий поисковый образ. Документ считается формально релевантным, если мера принимает значение не меньше порогового.

47

В большинстве реальных ИПС критерий задается выражением алгебры логики, сформулированным пользователем на основании семантической структуры информационной потребности.

Неявным, но основным с точки зрения реализации алгоритма поиска, фактором здесь является порядок выборки. Выборка может проводиться в «естественном» порядке, соответствующем расположению объектов в массиве, или в «искусственном», соответствующем, например, некоторой классификации предметной области.

И в том и в другом случае имеем дело с перебором объектов, выбираемых для сравнения из хранилища. То есть рациональность построения процедуры поиска зависит от длины перебора, что в свою очередь определяется как характеристиками хранимых объектов (в первую очередь, размерами документов), так и характером запросов (в нашем примере – поиском по предмету или поиском по шифру хранения документов). Таким образом, оптимизация достигается сокращением перебора – длины последовательно проверяемого массива.

Заметим, что есть две классические технологии обработки запросов (так называемых режимов информационного поиска): режим ретроспективного поиска и режим избирательного распределения информации.

При ретроспективном поиске очередной ПОЗ сравнивается со всеми ПОД. В режиме избирательного распределения информации схема зеркально симметричная: ПОД каждого документа сравнивается со всеми поисковыми образами запросов. То есть, в первом случае запросы обрабатываются после создания массива ПОД, которые, накапливаясь, формируют ретроспективную БД, а во втором – массив ПОЗ создается до обработки документов (при этом хранится массив ПОЗ и необязательно – ПОД). Поэтому эти режимы иначе называют режимами обработки разовых и постоянно действующих запросов.

Соответственно, технологии (алгоритмы) поиска основываются на двух типах организации массива объектов поиска – прямой и инвертированной. Для рассмотрения взаимосвязи алгоритма поиска и организации массива здесь и далее используем знакомый

48

всем пример организации и поиска информации в традиционных библиотеках1.

Вслучае прямой организации массива (хранилища) документы могут размещаться в последовательности, никак не связываемой

спорядком какой-либо классификации или алфавита, в простейшем случае – в порядке их поступления. Но с точки зрения основного назначения АИПС – информационного обеспечения ОД, определяющим в понятии «прямая организация» является не характер размещения документов – единиц хранения, а размещение содержания документов, которое представлено изначальной «естественной» последовательностью слов, образующих, в том числе, и контекст их употребления. При прямой организации поиск в боль-

ших массивах будет требовать достаточно много времени, так как для сравнения с запросом надо последовательно выбирать все2 документы из хранилища, по той простой причине, что, не обратившись к документу, мы не можем судить о его содержании.

Винвертированном массиве документы могут быть, например, разбиты на подмножества, которые, в свою очередь, упорядочены в соответствии с некоторой классификацией и, что особенно важно, обозначены идентификаторами, отражающими предметное содержание соответствующего класса (в пределе таким идентификатором может быть отдельный термин). Такое упорядочение документов в хранилище сопровождается построением вспомога-

тельной структуры – инвертированного справочника, в котором с каждым индексом (идентификатором класса) связан список ссылок на документы, отнесенные к этому классу. Например, систематический каталог библиотеки имеет типично инвертированную организацию: карточки с шифром раздела представляют собой индекс, а

1Отметим, что выбор этого примера основывается не только на его «привычности» для человека, но и на том, что с методологической и системной точек зрения применяемые в библиотеках подходы, методы и технологии являются по существу универсальными и не зависящими от степени автоматизации.

2Конечно, перебор можно завершить, когда будет получен документ, отвечающий в рамках известного, и даже уже ставшего традиционным, подхода на все вопросы реальной ИП, однако, вполне возможно предположить, что мы при этом уже не дойдем до документов, опубликовавших новейшие достижения, опровергающие традиционный подход

49

инвертированный список – это распложенные за ней карточки с шифрами хранения соответствующих единиц. Для случая текстовых баз данных в качестве индекса может выступать термин из текста или термин из предопределенного словаря, выступающий в качестве смыслового эквивалента фрагмента текста, словосочетания или отдельного слова текста.

В контексте типологии простых запросов отметим, что запросы типа 1 выполняются поиском по «прямому» массиву: доступ к записи производится по первичному ключу. Запросы типа 2 выполняются поиском по инвертированному списку: доступ к записи производится по указателю, выбираемому из списка по значению вторичного ключа. Ответом в этих случаях будет значение атрибута или идентификатора. Запросы типа 3 имеют ответ – имя атрибута.

Запросы типа 2, 5, 6 относятся к нескольким атрибутам и в этом случае могут быть построены несколько индексов, облегчающих поиск по этим ключам.

Для документальных систем, которым свойственны в основном запросы 2-го типа, можно выделить три следующих типа архитектур доступа:

1.Системы с вторичными индексами. В этих системах по-

следовательность расположения записей соответствует последовательности значений первичного ключа. Как правило, используется один первичный индекс и несколько вторичных.

2.Системы частично инвертированных файлов. В этих системах записи могут располагаться в произвольной последовательности. В отличие от систем первого типа первичный индекс отсутствует. Вторичные индексы применяются для прямой адресации записей, что существенно облегчает включение в файл новых записей, так как допускается их размещение в любом свободном участке файла.

3.Системы полностью инвертированных файлов. В этих системах предусмотрено наличие файлов, содержащих значения отдельных элементов данных, входящих в состав записей, – допускается раздельное хранение элементов данных записи. Значения элементов данных, составляющих конкретную запись или кортеж,

вобщем случае могут размещаться в памяти произвольно. Для ус-

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]