Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
20
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

Московская финансово-промышленная академия

Голицына О.Л. Максимов Н.В.

Информационные системы

Москва, 2004

Голицына О.Л, Максимов Н.В. Информационные системы / Московская финансово-промышленная академия. - М.: 2004. - 329 с.

Рекомендовано Учебно-методическим объединением по образованию в области прикладной информатики (по областям) в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 351400 «Прикладная информатика (по областям)» и другим междисциплинарным специальностям.

©Голицына О.Л., 2004

©Максимов Н.В., 2004

©Московская финансово-промышленная академия, 2004

Содержание

 

Введение.....................................................................................................

6

1. Информация. Основные свойства и определения.........................

14

1.1. Информация как основной предмет информатики.............................

14

1.2. Соотношение понятий «информация», «данные», «знания» ............

16

1.2.1. Информация.........................................................................................

17

1.2.2. Данные..................................................................................................

19

1.2.3. Знания...................................................................................................

20

1.2.4. Научно-техническая информация.....................................................

22

1.3. Свойства информации...........................................................................

23

1.3.1. Кумулятивность информации............................................................

25

1.3.2. Концентрация информации................................................................

26

1.3.3. Эмерджентность и неассоциативность информации......................

28

1.3.4. Стaрение информации........................................................................

29

1.3.5. Межотраслевые свойства и рассеяние информации.......................

30

1.4. Информационные единицы...................................................................

32

2. Информационные системы и технологии обработки

 

информации.............................................................................................

35

2.1. Состав и структура информационной системы..................................

36

2.1.1. Классификация информационных систем........................................

37

2.1.2. Основные компоненты ИС.................................................................

40

2.2. Информационные компоненты в системах управления....................

42

2.2.1. Информационная модель управления в системах материальных

 

преобразований..............................................................................................

43

2.2.2. Информация в системах обработки и генерации знания................

48

2.2.3. Характер информационных составляющих в системах

 

управления.....................................................................................................

53

2.3. Информационные технологии..............................................................

58

2.4. О реализации процесса поиска информации ......................................

60

3. Модели и структуры данных информационных систем..............

65

3.1. Семантика ИС, основанных на концепции баз данных.....................

65

3.2. Идентификация и поиск информации.................................................

70

3.3. Представление предметной области и модели данных......................

75

3.4. Структура информации и структура данных .....................................

77

3.5. Организацияданныхвдокументальныхинформационныхсистемах....

79

3.5.1. Организацияданныхвдокументальнойинформационно-поисковой

 

системеSTAIRS ..............................................................................................

79

3.5.2. ОрганизацияданныхвдокументальнойАИПСIRBIS.........................

83

3.6. УровневаямодельпредставленияинформациивполнотекстовыхБД...

87

3.6.1. Преобразование представлений.........................................................

89

3.6.2. СтруктураполнотекстовойБД..............................................................

92

4. Модели поиска и оценки эффективности.......................................

95

4.1. Оценка экономической и технической эффективности...................

95

4.1.1. Экономическая эффективность.........................................................

96

4.1.2. Техническая эффективность..............................................................

98

4.2. Математические модели оценки технической эффективности.......

100

4.3. Модели механизмов информационного поиска в документальных

БД..................................................................................................................

103

4.3.1. Матрица «термин-документ»...........................................................

106

4.3.2. Модель механизма поиска по совпадению терминов...................

107

4.3.3. Модель механизма поиска по логическому выражению..............

108

4.4. Пример использования различных поисковых механизмов и оценка

эффективности результатов.......................................................................

116

4.5. Информационно-поисковый язык документальной ИПС ..............

119

4.5.1. Предложение запроса .......................................................................

120

4.5.2. Условие поиска..................................................................................

121

4.5.3. Синтаксис и семантика использования дескрипторов..................

123

4.5.4. Использование ранее полученных результатов поиска................

125

5. Лингвистическое обеспечение ИС.................................................

127

5.1. Рольилогикаязыковыхсредствпоискадокументальной

 

информации ..................................................................................................

127

5.2. Состав и структура лингвистического обеспечения .......................

130

5.2.1. Основныепонятиялингвистическогообеспечения............................

131

5.3. Классификации................................................................................

135

5.3.1. Библиотечно-библиографические классификации........................

136

5.3.2. Классификации изобретений...........................................................

156

5.3.3. Отраслевые классификационные системы.....................................

161

5.4. Дескрипторныеинформационно-поисковыеязыки...............................

167

5.4.1. Координатное индексирование........................................................

167

5.4.2. Семантическая сила дескрипторных ИПЯ.....................................

171

5.5. Терминологическиеструктуры..............................................................

176

5.5.1. Линейные терминологические структуры......................................

177

5.5.2. Иерархические терминологические структуры.............................

179

5.5.3. Терминологическиеструктурыссетевойорганизацией.....................

182

6. Поисковые задачи и технологии информационного поиска.....

195

6.1. Динамика информации в системах основной и информационной

 

деятельности................................................................................................

196

6.2. Поисковые задачи и виды информационного поиска......................

201

6.2.1. Типология поисковых задач.............................................................

201

6.2.2. Типология информационных потребностей...................................

202

6.2.3. Типология информационной неопределенности и виды

 

информационного поиска...........................................................................

203

6.3. Компонентыиобобщеннаясхемаинформационногопоиска...............

207

6.3.1. Обобщеннаясхемаинформационногопоиска....................................

210

7. Модели интерфейсов человеко-машинного информационного

 

поиска.....................................................................................................

220

7.1. Типологияпоисковыхзадачипландействийпривзаимодействии

 

пользователясинформационнойсистемой..................................................

222

7.2. Типологияинформационныхпотребностейпользователя....................

224

7.3. Технология поиска и интерфейс АИПС............................................

226

7.3.1. Творческий процесс и стереотипы мышления...............................

227

7.3.2. Интерфейспользователя......................................................................

227

7.4. ПоведениепользователейпривзаимодействиисАИС .........................

228

7.4.1. Уровневая модель человеко-машинного взаимодействия............

228

7.4.2. Когнитивные аспекты человеко-машинного взаимодействия.....

229

7.4.3. Типология и стереотипы поведения пользователей......................

232

7.4.4. Типология поведения пользователя в различных деятельностных

состояниях....................................................................................................

234

7.5.1. Основные компоненты процессов и систем поиска

 

документальной информации....................................................................

239

7.5.2. Технологиипоискаиобработкирезультатов......................................

247

7.5.3. Поисковые интерфейсы....................................................................

249

8. Интерфейсные средства информационного поиска....................

263

8.1. Средстваформированиязапросов..........................................................

264

8.1.1. Формирование запроса «по образцу» .............................................

265

8.1.2. Конструктор запроса «по шагам»....................................................

267

8.1.3. Конструктор запроса «Логическое выражение»............................

270

8.1.4. Использование формулировок ранее сохраненных запросов......

272

8.2. Средстваитехнологиипоискадокументовпосходству.......................

273

8.2.1. Поиск аналогов..................................................................................

274

8.2.2. Эвристический поиск........................................................................

275

8.2.3. Поиск по обратной связи..................................................................

276

8.3. Технологические объекты построения предложения запроса ........

278

8.3.1. Частотный словарь............................................................................

279

8.3.2. Тематический рубрикатор................................................................

279

8.3.3. Тезаурус..............................................................................................

279

8.3.4. Иерархический словник....................................................................

281

8.4. Обобщеннаяхарактеристикаразвитияпоисковогопроцесса................

284

Список сокращений.............................................................................

288

Литература ............................................................................................

289

Глоссарий...............................................................................................

295

Приложения...........................................................................................

300

ВВЕДЕНИЕ

С того времени, когда научные исследования стали индустрией, проблемы информационного обеспечения преобразовались в самостоятельное направление, в значительной степени ориентированное на вычислительную технику и электронные средства коммуникаций.

Достижения очевидны и ощутимы. Практически обеспечена возможность организации всемирного каталога публикаций через объединение1 каталогов и баз данных крупнейших национальных библиотек и информационных центров практически всех развитых стран, включая РФ. Глобальная сеть Internet сделала реальностью открытость и доступность в реальном масштабе времени информационные ресурсы (ИР) самого разного объема и содержания, от частной коллекции до национальных архивов.

Однако даже широкое внедрение информационных систем и баз данных в сочетании с сетевыми решениями, тем не менее, остается пока лишь очередным этапом в попытках человека справиться с проблемами получения и переработки информации. Интенсивное развитие вычислительной техники и кибернетических методов управления информационными потоками по существу дало только новые (электронные) носители и сверхбыстрый доступ к хранилищам. Это позволило на порядки увеличить скорости получения данных и объемы оперативно доступного информационного пространства, однако ситуация с использованием собственно информации практически не изменилась.

Причины здесь кроются не столько в финансовой, организационной или технической сфере, сколько в том, что человек, как система переработки и генерации самой информации, принципиально не изменился. Рассматривая перспективы развития науки, физик Дж. Томсон по существу характеризовал и особенности использования информации: «…совершенно неизбежно, что по мере расширения наших знаний та их доля, которой в состоянии овладеть один человек, будет убывать. Поскольку для работы человеку надо знать очень многое, он испытывает величайший соблазн учить как можно меньше из того, что ему в работе непосредственно не пригодится. У него создается однобокое представление о мире, в котором он живет. Второе из нежелательных последствий проявляется на более поздней стадии специализации. Многие достижения науки и техники являются следствием внедрения тех или иных идей в областях, для которых они первоначально не предназначались. Однако реализация подобной возможности требует все труднее и труднее достижимой широты знаний. Вполне может случиться, что эта особенность воздвигает предел прогрессу науки, но здесь многое можно сделать для того, чтобы отодвинуть приход этой катастрофы» [Том-

сон1958].

1 Например, с использование унифицированных средств доступа на основе протокола Z39.50

Количество литературы быстро растет практически во всех областях. И для науки индустриального периода развития общества стало характерно разделение труда: исследователь все больше нуждается в помощи специальной службы, призванной ориентировать его в потоке информации. В начале индустриального периода такой службой являлись органы научной информации, в задачи которых входили поиск и концентрация информации зачастую непосредственно для исследователя, не только на уровне проблемам, но на уровне отдельной задачи. Это вполне отражало экстенсивную оценку ситуации, данную Дж. Томсоном: «В науке неминуемо должно произойти то, что произошло в армии. В целях обеспечения боеспособности солдата на передовой линии приходится в тылу ставить за ним все больше людей». Развитие информационных технологий и глобализация информационных коммуникаций, свой ственные постиндустриальному периоду развития, как кажется, обеспечили возможность взаимодействия исследователей минуя информационных посредников. Парадокс современности состоит в том, что общество получив технические возможности непосредственного взаимодействия исследователей, обрело при этом такие проблемы как, например, ограничения авторского и имущественного права на передачу информации2. Организации, занимающиеся информационным обеспечением науки и производства, практически исчезли. Функции поиска перешли к потребителю информации (исследователям), а задачи систематизации и концентрации информации по большей части берут на себя издатели3.

Библиотеки и автоматизированные банки данных это внешняя, глобальная, но пассивная память, хранящая разнородную и по-разному представленную информацию, а Internet и разнообразные средства вычислительной техники являют собой высокоэффективные, но, тем не менее, узко специализированные средства доступа к данным, хранимым

вмашиночитаемом виде. Причем, объемы данных и темпы их прироста, а также разнообразие форм и динамика представления информации настолько велики, что в некоторых случаях «…по сути дела легче открыть новый факт или создать теорию, чем удостовериться, что они еще не были созданы или выведены» [Воробьев1966].

Однако упомянутый тезис должен восприниматься, конечно же, не

вкачестве отрицания информационных технологий, а скорее как фактор, стимулирующий исследования и разработки направлений, связанных с изучением глубинных процессов переработки информации в человекомашинных системах и, прежде всего, для задач генерации нового знания. Само развитие информационных технологий и их повсеместное внедрение практически во все сферы деятельности человека (по крайней

2То есть, «люди тыла» переместились из сферы, приближенной к исследователю, в сферу управления.

3При этом пока сохранились и продуценты (издатели) вторичной информации – информационные службы, производящие не только аналитическую обработку проблемно-ориентированных потоков информации, но и его систематизацию, что фактически и обеспечивает для исследователя возможность эффективного поиска информации без информационного посредника.

мере, той, которая связана или завершается документом или коллекцией данных) уже привело к тому, что электронная форма представления информации принята официально (и законодательно, например, в СССР

еще в 1980г.). Радикальность и необратимость этого процесса признана,

втом числе, в такой консервативной области, как архивоведение, что констатировалось на Международном совещании архивистов (Италия, Масерата, 1991г., Москва, 27-28 ноября 1997г).

Развитие информационных технологий в области документалистики и информационного обеспечения научных исследований получило развитие в многочисленных проектах создания и внедрения электронных библиотек (ЭБ) как глобального, так и локального масштаба. По результатам исследований Института развития информационного общества [45], в той или иной форме идея электронной библиотеки уже работает во многих университетах и крупных библиотеках ведущих стран мира. Например, электронная "библиотека XXI века" создается в Японии путем соединения усилий Агентства по внедрению новых технологий, Национальной парламентской библиотеки, ряда министерств, библиотек

икультурных центров. Несколько лет назад Библиотека Конгресса США начала реализацию национальной программы создания электронной библиотеки. Начиная с 1994 г. по инициативе NSF, DARPA и NASA в США была развернута исследовательская программа Digital Libraries Initiative по электронным библиотекам. На второй стадии развития в начале 1998 г. эти программы были объединены в единую межведомственную программу (DLI - Phase 2), в которой, кроме того, участвуют Национальная медицинская библиотека, Агентство по статистике США, Национальный гуманитарный фонд, Национальный архив США и другие федеральные агентства. Начиная с 1995 г., осуществляется проект Bibliotheca Universalis создания электронных библиотек для стран «семерки». С 1995 г. осуществляется национальная программа eLib в Великобритании. В других странах (Канада, Германия и т.д.) многочисленные разрозненные проекты в последние годы также стали превращаться

внациональные и международные программы создания электронных библиотек.

ВРоссии реализация проектов по созданию электронных библиотек начата сравнительно недавно. С 1998 г. по инициативе Российского фонда фундаментальных исследований и Российского фонда технологического развития осуществляется программа "Российские электронные библиотеки", в рамках которой ведутся работы по общесистемным вопросам создания и функционирования электронных библиотек, развитию инфраструктуры, разработке инструментальных средств, а также создание конкретных электронных библиотек по областям науки, культуры и образования. В настоящее время успешно функционируют электронные библиотеки ИНИОН РАН, ВИНИТИ РАН, ВНТИЦентра, РГБ, электронные каталоги БЕН, ГПНТБ и др.

Наряду с упомянутыми примерами, представляющими, в основном, масштабные проекты и, главное – имеющими преимущественно информационную историю и вобравшими лучшие традиции информационной деятельности, ориентированной на обслуживание пользователя, заметной составляющей (по крайней мере, Internet-ресурсов) стали коллекции информационных объектов различного вида и назначения. Особенностью таких ресурсов4 помимо распределенности является гетерогенность - практически неограниченное разнообразие форм их представления (форматов и сред хранения), а также разнокалиберность условий и методов доступа. Сюда относятся ресурсы самого разного масштаба: от отдельных электронных документов, размещенных на авторской Inter- net-странице, до электронных коллекций и библиотек крупнейших издательств. Но, следует отметить, что в любом случае информационный ресурс, в отличие от набора данных, идентифицируется не только адресом хранения, но и содержанием, имеющим информационную природу (практически каждый ресурс создается изначально ориентированным на адресное хотя, возможно, и неоднозначное восприятие, что и является предпосылкой создания новой информации), а его доступность обеспечивается встроенным или внешним, более или менее развитым поисковым инструментом, избыточном по отношению к самому ресурсу.

В общем случае можно заметить, что в качестве компонентов здесь выступают электронные каталоги (библиографические и реферативные базы данных), полнотекстовые массивы (электронные журналы, фактографические базы данных, коллекции электронных документов или копий первоисточников и т.д.), справочно-нормативные файлы (рубрикаторы, тезаурусы, авторские, предметные, географические и другие указатели), возможно связанные между собой ссылками, указателями хранения или условиями поиска. Например, записи электронных каталогов содержат указания местоположения книг, а справочнонормативные файлы традиционно используются в качестве "точек входа" в библиографические и реферативные базы данных. С появлением технических возможностей создания полнотекстовых баз данных спра- вочно-поисковый аппарат и собственно массив информации технологически становятся единым целым, и на первый план выходит задача организации такой взаимосвязи, чтобы переход по ссылке от компонентов одного ресурса к компонентам другого, а также от компонентов одного уровня к компонентам другого, воспринимался пользователем как простейший одноактный процесс, подобный перевороту страницы книги.

Поскольку конечной целью построения любой информационной системы является обеспечение пользователю условий получения нужной

4 Информационные ресурсы в [Попов1996] определяются как совокупность накопленной информации, зафиксированной на материальных носителях в любой форме, обеспечивающей ее передачу во времени и пространстве. Таким образом, в контексте автоматизированных информационных систем под информационными ресурсами можно подразумевать информационные массивы и базы данных, рассматриваемые совместно с информационными технологиями, обеспечивающими их доступность.

информации, немаловажную роль играет форма и процедура подачи этой информации. Для того чтобы пользователь мог легче воспринимать большие объемы информации, разработано множество форм и методов ее представления, что выражается, например, в создании «фирменных» стандартов хранения и методов поиска, а также интерфейсов, адаптируемых каждым конкретным пользователем для себя. В то же время наблюдается, что часть пользователей Internet полагают достаточным использование в качестве средств поиска стандартных программ общего назначения, как например Internet Explorer или Netscape Navigator.

Другой особенностью современности является наблюдаемый режим “информационного самообслуживания”. Пользователь, привыкший к интуитивному освоению программных сред (в основном стандартных средств операционной системы, большинство из которых имеет существенно более простой и дружественный интерфейс), часто неадекватно оценивает состояние и результаты поиска. Показательными примерами являются такие ситуации, как:

-принятие безаппеляционного решения о “плохой” базе данных или поисковой системе после получения неудовлетворительного или нулевого результата по первому же запросу, иногда даже не являющемуся правильным с точки зрения поискового языка;

-прекращение пользователем развития запроса, если он получает известные или собственные публикации, т.е. когда происходит подмена критерия остановки процесса поиска по условию нахождения нужной новой информации или остановки по условию отсутствия новой информации в каждой следующей выдаче фактом подтверждаемости “результативности” выражения запроса.

Кроме того, пользователь рискует обрести некоторую убежденность в том, что поисковые системы (особенно когда речь идет о поисковых средствах Internet) всемогущи и вездесущи, а их способности извлекать информацию (знания) из текстов и массивов документов бесконечно выше человеческих. Такой подход в самом безобидном случае приводит к некритичному отношению к результату поиска, т.е. пользователь удовлетворяется уже фактом получения выдачи (а современные поисковые системы часто устроены так, чтобы практически всегда пользователю выдавались какие-нибудь документы, пусть даже и в минимальной степени формально соответствующие запросу).

Поскольку система является всего лишь инструментом, исполь-

зуемым человеком при поиске, а не интеллектуальным автоматом для поиска информации, эффективность ее использования зависит от того, насколько хорошо человек знает природу объектов и свойства инструмента, посредством которого он с этими объектами работает. Таким образом, можно сказать, что процесс информационного обеспечения (поиска и предоставления информации по проблеме) предполагает опреде-