Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

С точки зрения организации процедуры отбора этому соответствует два способа соотнесения затребованного с имеющимся в информационном массиве: 1) путем сопоставления запроса непосредственно с содержанием объекта, выбранного для сравнения; 2) опосредованно, когда запрос сопоставляется с образом, производным (вторичным) по отношению к самому объекту. С точки зрения представленного выше алгоритма разница между этими способами состоит в том, объект какой природы будет выбираться в цикле для сравнения – непосредственное содержание или некоторый идентификатор, отражающий содержание отчасти или в целом. Неявным, но, с точки зрения реализации алгоритма поиска – основным фактором здесь является форма (способ), определяющая порядок выборки: от порядка расположения объектов в массиве (например, в том «естественном» порядке, в каком они поступали для хранения), или в «искусственном» порядке, соответствующем, например, классификации предметной области. Но, поскольку и в том, и в другом случае мы имеем дело с перебором объектов, выбираемых из хранилища для сравнения, рациональность построения процедуры поиска будет определяться длиной перебора, что в свою очередь определяется как характеристиками хранимых объектов (в нашем примере – размерами документов), так характером запросов (в нашем примере – поиском по предмету или по шифру хранения документов). Соответственно, оптимизация процесса в первую очередь связывается с возможностью сокращения времени перебора, то есть - длины выбираемой последовательности.

Вобщем случае можно сказать, что технологии (алгоритмы) поиска основываются на двух типах организации массива объектов поиска – прямой и инвертированной. Для рассмотрения взаимосвязи алгоритма поиска

иорганизации массива здесь и далее используем знакомый всем пример организации и поиска информации в традиционных библиотеках20.

Вслучае прямой организации массива документы размещаются в последовательности, не связываемой с порядком какой-либо классификации или алфавита, например, в порядке их поступления в хранилище. Но здесь надо отметить, что определяющим в понятии «прямая организация» является не характер размещения документов – единиц хранения, а размещение содержания документов, которое представлено изначальной «естественной» последовательностью слов, образующих, в том числе, и контекст их употребления. Поиск по предмету при такой организации для больших массивов будет требовать достаточно много времени, так как для этого надо последовательно выбирать для сравнения с запросом все документы из хранилища, поскольку, не обратившись к документу, мы не можем судить о его содержании.

Винвертированном массиве документы могут быть, например, разбиты на подмножества, которые упорядочены в соответствии с некоторой классификацией и, что особенно важно, обозначены идентификаторами,

20 Отметим, что выбор этого примера основывается не только на его «привычности» для человека, но и на том, что с методологической и системной точек зрения применяемые в библиотеках подходы, методы и технологии являются по существу универсальными и не зависящими от уровня автоматизации.

61

отражающими предметное содержание соответствующего класса. Более того, такое упорядочение документов в хранилище сопровождается построением вспомогательной структуры – инвертированного справочника, в котором с каждым индексом (идентификатором класса) связан список ссылок на документы, отнесенные к этому классу.

Целесообразность использования терминов «прямая» и «инвертированная» форма представления информации становится очевидной при рассмотрении «предельного» варианта организации инвертированного справочника, в котором в качестве индексов используются все без исключения слова документов, а в ссылку на документ, содержащий данное слово, включены данные о позиции этого слова в документе (например, номер главы, параграфа, предложения, позиции в предложении).

В этом случае избыточность данных может быть уменьшена за счет отказа от прямого массива документов. Но это приведет к дополнительным затратам пространства для хранения позиционных параметров и дополнительным действиям по сборке текста документов, которые необходимо выдавать пользователю, что, соответственно потребует больше времени.

При инвертированной организации на первом шаге проводится поиск в инвертированном справочнике и, если предмет запроса отождествлен с соответствующим классом, то на втором шаге для детального соотнесения содержания документа и запроса обращение будет производиться только к сравнительно небольшому числу документов – только тем, которые отнесены к этому классу. Таким образом, за счет введения информационно избыточной структуры и дополнительного шага поиска достигается существенный выигрыш во времени: суммарное время на поиск в инвертированном справочнике существенно меньше поиска в целом массиве документов, поскольку длина индекса обычно на несколько порядков меньше длины документа, и, кроме того, индексы строго упорядочены, например, по лексико-графическому признаку.

Идентификация содержания с помощью индексов строится по принципам языковых систем (каждый индекс представляет то или иное множество характеристических признаков), что позволяет еще сократить число просматриваемых документов: в соответствии с формулой композиции признаков (что хорошо реализуется выражением алгебры логики) производится слияние относящихся к разным индексам списков ссылок на документы, то есть выбираются только те документы, которые описываются именно этим сочетанием. Кроме того, для индексирования содержания отдельного документа могут быть использованы разные лингвистические системы, то есть один документ может иметь несколько поисковых образов, отражающих его содержание в различных аспектах и с разной степенью детализации.

Использование технологии индексирования (и, соответственно, инвертированных форм представления информации) тем не менее, имеет ряд следующих принципиальных недостатков:

62

1)индексационная информация, относящаяся к документу, статична: индексы, приписанные к документу, будут всегда иметь смысл, определенный при создании языка индексирования (например, классификации);

2)нельзя без дополнительных затрат реализовать управление глубиной поиска, а также поиск с использованием критерия «частичного» соответствия.

Тем не менее, автоматизация поиска информации основывается именно на технологии индексирования (как способа идентификации содержания) документов, поскольку документальные ИПС имеют следующие принципиально важные особенности [Солтон1979] построения и использования.

Во-первых, нужно помнить, что задачи в области документального поиска не сравнимы с другими задачами обработки текстов, такими, как автоматический перевод или поисковые процедуры типа вопрос-ответ (при которых даются прямые ответы на самые разные вопросы). Документальные ИПС создаются только для того, чтобы указать потребителю те документы, которые, скорее всего, имеют отношение к данному интересующему его вопросу. Поэтому здесь можно ограничиваться довольно грубым раскрытием содержания документа, указывающим лишь основные моменты, вместо фразеологического анализа, необходимого, например, при переводе.

Во-вторых, поисковые системы создаются для обслуживания больших и часто разнородных групп потребителей. Поскольку последние могут иметь различные потребности и цели, поисковые запросы варьируются от вопросов обзорного или познавательного характера до очень подробных аналитических запросов. При таких условиях слишком подробный анализ может оказаться излишне (или даже - неприемлемо) специализированным для большинства пользователей.

В-третьих, в основе процесса оценки лежит некоторый критерий эффективности, обычно усредняемый по многим поисковым запросам. Это означает, что более предпочтительными оказываются такие методы анализа, которые дают умеренно высокую общую эффективность, чем, может быть, более тонкие алгоритмы, которые могут превосходно обрабатывать одни запросы, но значительно хуже другие. Практически может оказаться, что для каждого вида запроса оптимальным будет некоторый специфический метод анализа, но для среднего запроса наилучшими являются более простые методы индексирования.

63

Контрольные вопросы

1.Приведите примеры абстрактных систем.

2.Приведите примеры материальных систем.

3.Дайте определение понятия «информационная система»

4.Охарактеризуйте и классифицируйте информацию, как основной объект обработки в ИС.

5.Приведите классификацию ИС.

6.Охарактеризуйте основные компоненты ИС.

7.Перечислите и охарактеризуйте основные обеспечивающие подсистемы ИС.

8.Охарактеризуйте движение информации в системах управления

ив системах воспроизводства знаний.

9.Определите понятие «информационная деятельность».

10.Дайте определение информационной технологии.

11.Перечислите основные операции процесса поиска информации.

64

3. Модели и структуры данных информационных систем

Рассматриваемые в контексте понятия «информационная система» элементы реального мира, информацию о которых мы сохраняем и обрабатываем, будем называть объектами. Объект может быть материальным (например, служащий, изделие или населенный пункт) и нематериальным (например, имя, понятие, абстрактная идея).

Набором объектов будем называть совокупность объектов, однородных с некоторой точки зрения (например, объектов нашего внимания, пусть даже и разнородных по своей внутренней природе).

Объект имеет различные свойства (например, цвет, вес, имя), которые важны для нас в то время, когда мы обращаемся к объекту (например, выбираем среди множества других) с какой-либо целью его использования. Причем свойства могут быть заданы как отдельными однозначно интерпретируемыми количественными показателями, так и словесными нечеткими описаниями, допускающими разную трактовку, зависящую, например, от точки зрения и наличных знаний воспринимающего субъекта.

Общим же фактором является то, что человек, работая с информацией, имеет дело с абстракцией, представляющей интересующий его фрагмент реального мира - той совокупностью характеристических свойств (атрибутов), которые важны для решения его прикладной задачи. Абстрагирование – это способ упрощения совокупности фактов, относящихся к реальному объекту (по своей сути бесконечно сложному и разнообразному). При этом некоторые свойства объекта игнорируются, поскольку считается, что для решения данной прикладной задачи (или совокупности задач) они не являются определяющими и не влияют на конечный результат действий при решении.

Цель такого абстрагирования - построение конструктивного операбельного описания (рабочей модели), удобного в обработке, как для человека, так и для машины, позволяющего организовать эффективную обработку больших объемов информации, причем высокопроизводительной должна быть работа не только вычислительной системы, но и взаимодействующего с ней человека.

3.1. Семантика ИС, основанных на концепции баз данных

Как уже отмечалось, задачи информационных систем – это не только поддержка процессов планирования и управления, но и интеграция разработки и сопровождения основных и технологических объектов и процессов, диагностика, мониторинг, моделирование. Соответственно, задачи и назначение БД, как системы хранящей информацию обо всех составляющих – обеспечить информационную поддержку процессов жизненного цикла автоматизируемой системы.

65

Здесь база данных, как основная информационная компонента системы управления, – это отражение реальной предметной области, «действующая» информационная модель21, которая, обеспечивая субъект информацией для принятия решения, позволяет в итоге управлять физическими объектами и процессами. Такая функциональная направленность (и, естественно, предполагающая достижение эффективности в первую очередь за счет использования именно БД) обуславливает и обратную зависимость: объекты, процессы и события ПрО выделяются таким образом, чтобы было возможно их представление в виде системы взаимосвязанных данных и процедур, удобных для их последующей (че- ловеко-машинной!) обработки.

В каком-то смысле базу данных можно сравнить с сообщением о состоянии предметной области, воспринимаемым некоторым субъектом, задачей которого и является преобразование объектов этой ПрО, причем в своей деятельности субъект руководствуется информацией извлекаемой именно из этого «сообщения». Схема этого соотношения, приведенная на рис. 3.1, иллюстрирует еще и то, что система, преобразующая объект, принципиально является комплексной (состоящей, по крайней мере, из двух компонент, работающих с объектами разной природы: субъект преобразования взаимодействует преимущественно с материальными объектами, а БД – с информационными).

БД

 

Управление

 

Субъект

Объект

преобразования

ПрО

Рис. 3.1. Информационная модель преобразования

В общем случае, поскольку для сложных систем с многоуровневым представлением семантики, эффективность обработки достигается через специализированность представления объектов или процессов путем сведения представления множества обрабатываемых объектов к однородности природы и формы их представления, то для реализации эффективного межуровнего (межкомпонентного) взаимодействия (на каждом из которых объекты представлены в виде, наиболее адекватном функциональным средствам этого уровня или процесса) любая величина должна быть преобразована в соответствии с «контекстом» этого уровня для получения такого ее представления, которое будет «значимо» для

21 Модель – лишь в том смысле, что она – представление, описание на уровне данных только некоторых аспектов, и только некоторой части реального мира, и поэтому не может быть тождественна реальным объектам. Но в тоже время БД и сама является частью реального мира.

66

воспринимающего уровня, т.е. может быть обработано средствами этого уровня. Здесь «контекст» - это декларативное или, иногда, процедурное определение способа использования элементарных составляющих величины для получения значения. Например, контекст - это порядок использования байтов при преобразовании вещественного числа, представленного в двоичной форме, в символьный формат.

Соотношение понятий величина, контекст и значение приведено на рис. 3.2. Здесь значение, получаемое на первом уровне (в первой подсистеме, процессе), на следующем рассматривается в свою очередь как величина, которая будет интерпретироваться в соответствии с контекстом своего уровня22 (процесса).

Уровень 2

Значение

 

Контекст Величина

Уровень 1

Значение

Контекст Величина

Рис. 3.2. Соотношение понятий «величина», «контекст» и «значение»

Таким образом, можно сказать, что значение в общем случае определяется парой <контекст, величина>. Причем, поскольку контекст и величина имеют разную природу, они должны быть представлены в вычислительной среде самостоятельными, скорее всего, разнотипными объектами.

Такое, хотя и упрощенное, представление БД как средства информационных коммуникаций, позволяет тем не менее увидеть взаимосвязь вида информации с формой ее представления и особенностью ее использования.

В этом смысле (с точки зрения способа представления и, соответственно, восприятия) в отдельный класс можно выделить фактографическую информацию: такое представление реально существующих событий и явлений, когда они могут быть описаны как факты, задаваемые парой <имя, значение>, где имя – знак, уникально определяющий (идентифицирующий) факт в заданной предметной области, и обычно не нуждающийся в явном определении или доопределении его существа; а

22 Соотношение понятий «величина» и «значение» аналогично соотношению понятий «данные» и «информация».

67

значение – характеристика, задающая одно из множества возможных состояний.

Т.е., здесь факт (его значение) задается величиной, например, числовой для физически измеримых параметров, в том числе и логически-

ми величинами «истина» / «ложь» для указания свершилось событие или нет23.

Можно сказать, что особенностью фактографической информации является практическая очевидность (минимальная неопределенность, не требующая использования сложных или нечетких процедур) идентификации и интерпретации «факта», как его имени, так и состояния. То есть, в этом случае контекст в достаточной степени определяется однозначно понимаемым объявлением о назначении базы данных и таким именованием полей данных, когда в качестве имени используется общепринятое, не зависящее от прикладных задач, имя свойства (и таким образом определяются характеристические признаки). Именно такое состояние предопределяет для пользователя возможность адекватного восприятия содержания: способ интерпретации данных в этом случае практически не может быть неоднозначным, причем для пользователя определение способа происходит неявно (не требует от него явных действий для определения и использования контекста). Это, с одной стороны, позволяет свести представление предметной области к точной теоретикомножественной модели, а с другой – обуславливает возможность непосредственного использования данных в задачах обработки (на уровне прикладных программ) для генерации новой информации без участия субъекта (человека), внешнего по отношению к машинной среде, обеспечивающего определение и использование контекста.

Однако большинство задач, решаемых человеком, не могут быть сведены к «фактографическому» представлению и описываются (и, соответственно, представляются в машинной среде) средствами естественного или специализированного языков, оперирующих лингвистическими переменными, значение которых может зависеть не только от контекста предметной области, но также и от контекста ближайшего окружения – значения соседних переменных. Причем, появление нового смысла (факта) не обязательно приводит к появлению новой переменной: новый факт представляется с помощью уже существующих переменных. Например, словесные определения философских или географических понятий.

В отличие от ранее рассмотренного фактографического представления, для вербальной формы представления факта (выражениями языка с использованием лингвистических переменных) характерно то, что для задания имени, значения и контекста может использоваться единый способ и средства – лингвистические переменные одного и того же языка. Например, описание весовых свойств может быть представлено не-

23 И, следует отметить, что такая форма в наибольшей степени соответствует машинным формам представления информации.

68

сколькими, но имеющих один смысл, вариантами предложений: «Чугунная заготовка весом 29 килограмм» или «Чугунная заготовка имеет свойство m = 29, где m – вес в килограммах».

Автоматическое приведение такого рода представлений к очевидной наилучшей для этого случая табличной форме, потребовало бы применения трудно реализуемых процедур морфологического и семантического анализа. Но, с другой стороны, выделение смысла (и генерация новой информации) обычно производится человеком, сознание которого (как среда преобразования) ориентировано именно на обработку лингвистических переменных.

Рассматривая процесс генерации новой информации (рис. 3.3), где в качестве источника исходных данных используются БД, нужно сказать, что отбор и обработка должны быть выделены в отдельные процессы, т.к. с точки зрения общей (суммарной) эффективности один из них (обычно поиск) должен быть опосредованным - оценка полезности найденной информации производится человеком в сознание человека - внешней по отношению к машине среде, работающей со слабоструктурированной информацией эффективнее машин.

 

Контекст

 

 

Постановка

Отбор

Обработка

Решение

исходных

данных

задачи

задачи

данных

 

 

 

 

База

данных

Рис. 3.3. Схема процесса автоматизированного решения задач

Случаи, когда информация представляется в форме не адекватной архитектуре Фон-Неймановских машин, могут быть обусловлены разными факторами. Рассмотрим следующие случаи.

1.Хорошо структурированная информация представляется в графическом или специальном формате. Например, структурные химические формулы, конструкторская документация и т.д. В этом случае для автоматической обработки требуются узко специализированные средства, что приводит к общей не унифицированности представления семантических элементов (например, графических примитивов) на уровне данных.

2.Информация точная по содержанию, но вариантно представляемая по форме. Например, описание в текстовом виде численно задаваемых параметров изделия. Лингвистические переменные в этом случае имеют точное значение, однако построение универсальной процедуры

69

автоматического выделения факта из текста трудоемко и потому нецелесообразно.

3. Слабоструктурированная информация, обычно представляемая в текстовой форме. Например учебная или научная публикация, где новые понятия строятся на основании ранее определенных. В этом случае значения лингвистических переменных могут принимать новые, ранее не определенные значения, которые определяются контекстом - ближним (словосочетания) или общим (темой сообщения).

Возвращаясь к процедуре поиска, как важнейшей составляющей использования ИС, еще раз отметим, что критерий отбора должен содержать не только величину (например, слово), но и контекст.

Вреальных системах поиск документальной информации24, представленной в текстовой форме, производится по вторичным документам

специально создаваемым поисковым образам точно идентифицирующим сам документ как единицу хранения, и приблизительно, в краткой форме путем перечисления основных понятий, отражающий смысловое содержание. Такой подход позволяет построить процедуры поиска на основе теоретико-множественной модели с точной логикой отбора по критерию наличия заданного сочетания терминов запроса в списке терминов поискового образа. Однако контекст использования терминов должен быть доопределен отдельно – либо во время поиска, например указанием тематической области, либо после отбора из базы – во время ознакомления человека с содержанием найденного.

Определение контекста предметной области, как будет рассмотрено далее, в целом осуществляется с помощью тезаурусов - терминологических систем, фиксирующих с помощью родовидовых и других отношений роль и семантику дескрипторов (выделенных терминов, которые используются для формирования поисковых образов документов).

3.2.Идентификация и поиск информации

Взадачах обработки информации, и в первую очередь в алгоритмизации и программировании, атрибуты именуют (обозначают) и приписывают им значения.

При обработке информации мы, так или иначе, имеем дело с совокупностью объектов, информацию о свойствах каждого из которых надо сохранять (записывать) как данные, чтобы при решении задач их можно было найти и выполнить необходимые преобразования.

Таким образом, любое состояние объекта характеризуется совокупностью актуализированных атрибутов25 (имеющих некоторое значе-

24Это соответствует третьему из вышеперечисленных случаев. Два первых мы не рассматриваем, т.к.

вэтих случаях используются специализированные системы.

25В общем случае объект может описываться совокупностью записей, относящихся к его составным частям или отражающих динамику изменения состояния.

70