Kolokvium / ХАНЕНКО2
.DOC
ОСНОВНЫЕ НАПРАВЛЕНИЯ РАЗВИТАЯ ИНФОРМАЦИОННЫХ СИСТЕМ
Новые средства взаимодействия пользователя с информационной системой
К числу наиболее эффективных новых средств, предоставляемых пользователям информационных систем современным вычислительным оборудованием, прежде всего следует отнести машинную графику, манипулирование крупноформатными бланками (крупноформатными электронными таблицами), методы обработки текста. Развитию этих средств способствовало появление и широкое внедрение в различные сферы деятельности персональных компьютеров (или персональных ЭВМ-ПЭВМ). Как известно, первые персональные компьютеры появились в середине 70-х годов. Персональный компьютер представляет собой небольшую ЭВМ, основой которой является микропроцессор. В работах выделяются следующие признаки, позволяющие отнести вычислительную систему к классу персональных компьютеров: сравнительно небольшая стоимость системы; наличие периферийной памяти в виде кассетных накопителей на магнитной ленте или магнитных дисках, а также винчестерские диски емкостью от 5 до 50 Мбайт; возможность подключения к вычислительным сетям и большим ЭВМ; наличие операционной системы, обеспечивающей взаимодействие пользователя и вычислительной системы в режиме диалога и быструю реакцию на запросы или действия пользователя; использование в качестве языка программирования, по крайней мере, одного языка высокого уровня (БЕЙСИК, ФОРТРАН, КОБОЛ и т. п.), позволяющего не учитывать конкретный характер машинных операций; гибкость и универсальность вычислительной системы, дающие возможность использовать широкий набор программных средств в различных приложениях (экономические и финансовые операции, научно-технические задачи, управление производством, образование, домашнее хозяйство и т. д.); простота вычислительной системы и ее ориентированность на пользователя-непрограммиста.
Расширение областей применения, быстрое увеличение числа пользователей персональных ЭВМ явилось следствием как резкого изменения соотношения стоимость-производительность, так и развития возможностей ПЭВМ. Персональные компьютеры сейчас могут использоваться не только в режиме самостоятельной вычислительной системы, но и как интеллектуальный терминал большой ЭВМ или информационно-вычислительной сети.
Машинная графика. Внедрение ПЭВМ сделало доступными для широкого круга пользователей те эффективные средства визуального представления (визуализации) информации, которые до недавнего времени использовались в основном работе с супер-ЭВМ. Новые программные продукты позволяют пользоваться графическими средствами (представлять данные на экране дисплея в виде различных диаграмм и графиков) даже для сравнительно недорогих компьютеров. При этом достигается весьма высокое качество интерфейса - средств общения между пользователем и ЭВМ, комфортность такого взаимодействия. К таким средствам, прежде всего, относится организация «оконного интерфейса». Этот тип интерфейса позволяет разделить экран дисплея на отдельные зоны, которые называют «окнами». Ближайшей аналогией здесь могут служить листы бумаги, расположенные на рабочем столе. Каждое окно служит экраном для отдельной прикладной программы. Пользователь, применяющий оконный интерфейс, может одновременно выводить на экран дисплея результаты, полученные им на разных этапах работы, представляя в одних окнах промежуточные значения, в других -необходимую справочную информацию в текстовой форме или исходные данные, в третьих- графическое представление результирующей информации. Для управления оконным интерфейсом разработаны специальные средства: «мышь», «джойстик» (рычажный указатель) и т.д. Мышь представляет собой небольшую коробочку с одной или несколькими кнопками, перемещение которой по рабочему столу или специальному планшету синхронно отображается перемещением курсора (метки) на экране дисплея. Двигая мышь, пользователь может легко переходить от одного окна к другому, анализируя при этом. представленную информацию. Нажатие кнопки означает, что мышь, а следовательно, и курсор, попали в нужное окно, которое фиксируется ЭВМ. В некоторых типах персональных компьютеров для этих же целей используется сенсорный экран. Окно здесь может быть указано световым пером, карандашом или просто пальцем. Следует отметить, что для объединения разнородных элементов в системах, допускающих использование оконного интерфейса, предусматриваются специальные операции «разрезания и склеивания», обеспечивающие формирование единого документа. Весьма перспективной и удобной для пользователя является технология
What You See Is What You Get - что видите, то и получаете, которая предполагает получение в твердой копии (на бумаге) того, что представлено в определенный момент на экране дисплея с максимальной степенью похожести. В прикладных программах, основанных на технологии WYSIWYG, как правило, используются специальные «меню», предлагающие пользователю выбрать тот или иной набор команд используемого языка программирования. С помощью простых графических символов (знаков) на экране могут быть показаны различные предметы, используемые в конкретном приложении. Например, для системы организационного управления это могут быть картотеки, часы, папки для бумаг и т. п. Указывая на эти символы с помощью, например, мыши, пользователь задает те программные средства, которые реализуют функции этих предметов в вычислительной системе. Построенный на таких принципах интерфейс, в котором активно используются средства машинной графики, оказался существенно удобнее и понятнее для пользователей-непрограммистов, чем традиционные методы организации взаимодействия пользователя и ЭВМ.
Особое значение имеют современные средства машинной графики в системах информационной поддержки автоматизированного проектирования, где визуализация информации является мощным средством повышения качества проектирования, сокращения его сроков. Использование машинной графики в САПР до недавнего времени основывалось только на методах, в основу которых была положена аналогия с «воображаемым фотоаппаратом». Прикладные программы при таком подходе «порождают» двух- или трехмерный цветной «мир», состоящий из таких объектов, как описания рисунков, элементов и т. п., включая в формируемые модели проектируемых объектов необходимые составляющие.
В получивших развитие в последние годы системах, не использующих аналогии с фотоаппаратом, сначала выполняется моделирование проектируемого объекта, а затем визуализация, для чего применяются «рисующие» программы, позволяющие перекрашивать и перемешивать отдельные элементы модели.
Если раньше в большинстве приложений машинной графики использовались двумерные изображения, то в последние годы особый интерес пользователей привлекают графические методы, позволяющие моделировать «трехмерные сцены», добиваться наиболее «реалистического» их изображения. Такие методы могут использоваться не только в компьютерных играх и «компьютерной живописи», но и при решении задач автоматизации научных исследований и управления, машинных методах обучения автоматизирована нога проектирования.
Манипулирование крупноформатными бланками. Большинство видов производственной, технологической, конструкторской, управленческой документации предполагает составление таблиц, в которых элементы одной строки или столбца определяются на основании значений других строк или столбцов. Например, в наряде на выполнение работ содержатся расценки и трудоемкость, стоимость работ определяется как произведение этих показателей. Составление таких таблиц можно формально рассматривать как реализацию операций манипулирования бланками. В этом случае в ЭВМ могут быть сформированы аналоги таких бланков, и с помощью специального программного обеспечения процедур манипулирования крупноформатными бланками пользователь может заполнять таблицы, а также выбирать рациональные решения и анализировать возможные варианты.
Основная идея технологии манипулирования бланками (МБ) состоит в следующем. Программы МБ рассматривают таблицу как совокупность сегментов информации, координаты которых определяются пересечением строк и столбцов. Каждому сегменту присваивается идентификатор, который позволяет найти содержащуюся в сегменте информацию. Содержание сегмента может быть строкой текста, числом, формулой. Для формирования документов используются также пустые сегменты, не содержащие какой-либо информации. При формировании бланка заполняются текстовые и формульные ячейки и задается формат выводимой таблицы. Сформированный документ отображается на экране дисплея и может быть отредактирован как по содержанию, так и по формату. Полностью сформированный и отредактированный документ выводится на печать. Технология МБ предусматривает организацию оконного интерфейса и использование мышей. Для удобства пользователя имеются специальные «подсказки», позволяющие получить в режиме меню информацию о возможных форматах, командах МБ и т. п.
К числу основных направлений развития пакетов манипулирования бланками относят: совершенствование методов организации оконного интерфейса; включение других средств (обработка текста, базы данных); автоматизацию поиска рациональных вариантов решения задач, для описания которых формируются крупноформатные бланки; стандартизацию форматов данных и протоколов обмена информацией.
Обработка текста. Средства обработки текста (ОТ) обеспечивают автоматизацию процесса оформления документов со словесным содержанием. Основной идеей, реализованной в ОТ, является расщепление процесса оформления текста на два этапа: набор и запоминание содержания в памяти ЭВМ; вы дача текста на печатающее устройство. Отметим, что развитие такого подхода к автоматизации ОТ при вело к широкому использованию текстовых процессоров.
В заключение отметим, что манипулирование бланками и обработка текстов, а также машинная графика становятся по-настоящему эффективными лишь при использовании баз данных. Это особенно отчетливо видно на примере систем автоматизации проектирования. Отсутствие средств хранения и накопления информации делает МБ, ОТ и машинную графику лишь красивыми игрушками для демонстрации нереализованных возможностей вычислительной техники.
Распределенные информационные системы
Под распределенной информационной системой (РИС) в настоящее время понимается комплекс территориально-удаленных или организационно независимых информационных систем, которые, выполняя закрепленные за ними функции обработки данных, обеспечивают коллективное использование информационных ресурсов пользователями каждой ИС. РИС представляют собой результат дальнейшего развития систем распределенной обработки данных (СРОД), основной целью которых, как известно, является предоставление возможности большому числу территориально разобщенных пользователей одновременно обращаться к вычислительным ресурсам системы. Наиболее типичными примерами СРОД могут служить вычислительные центры коллективного пользования (ВЦКП). На современных ВЦКП реализован удаленный режим телеобработки данных, который предусматривает наличие в ВЦКП мощной вычислительной системы, а у пользователей - удаленных терминалов этой ЭВМ (дисплеев и печатающих устройств). Вся работа пользователя осуществляется со своей «территории». Так же как и при наличии собственной вычислительной системы, пользователи ВЦКП могут создавать информационные системы в своих приложениях. Однако такие ИС не являются распределенными: они и их пользователи лишь физически разобщены территориально (что для пользователя особого значения не имеет). Работа с такими информационными системами ничем не отличается от обычного режима работы ИС. Примерами таких систем является большинство автоматизированных систем научно-технической информации.
Развитие информационно-вычислительных сетей привело к появлению собственно распределенных информационных систем, отличительной особенностью которых являются распределенные базы данных (РБД).
Под РБД в настоящее время понимается такая система организации, хранения, накопления, обработки и представления данных, при которой предусмотрено определенное закрепление фиксированных информационных структур за конкретными базами данных (конкретными информационными системами), называемыми локальными. Эти структуры в общем случае доступны пользователю любой локальной информационной системы, любой локальной базы данных.
Распределенные информационные системы находят все большее практическое применение. Наиболее ярким примером распределенной информационной системы, охватывающей разные приложения (исследование, проектирование, подготовку производства, производство, управление) является система информационного обеспечения интегрированного производственного комплекса.
В соответствии с работами стратегии распределения данных на информационно-вычислительной сети могут быть классифицированы в зависимости от числа узлов, т. е. архитектуры распределенной информационной системы, и наличия дублирования информации. Различают четыре основных типа стратегий которые, в свою очередь, определяют тип РИС.
Централизация. Единственная копия базы данных расположена в одном узле. Основным преимуществом данной стратегии является простота ее реализации. В этом случае вся информация концентрируется в одном (центральном) узле, объем вторичной памяти в котором ограничивает возможный размер базы данных. Все запросы на выборку и обновление данных должны направляться в центральный узел, что приводит к существенным затратам на реализацию каждого запроса, задержке его выполнения, снижению надежности работы с централизованной базой данных.
Расчленение. Единственная копия базы данных, локальные базы распределены по различным узлам. При использовании стратегии расчленения объем распределенной базы данных ограничивается уже необходимым объемом вторичной памяти, имеющейся во всей информационно-вычислительной сети данной РИС. Время отклика на запрос определяется «глобальностью» этого запроса и может быть существенно меньше, чем при использовании стратегии централизации для реализации запроса на уровне локальной базы данных, находящейся в узле РИС, и сравнимо с временем отклика при централизации в тех случаях, когда для реализации данного запроса необходима организация доступа к ряду ЛБД. Необходимо отметить, что эффективность стратегии расчленения тем выше, чем выше степень локализации ссылок, т. е. чем большее число запросов пользователей реализуется в базах данных, соответствующих локальных информационных систем (ЛИС).
Дублирование. Имеется несколько копий базы данных; в каждом узле располагается полная копия всех данных. Основные преимущества данной стратегии- высокая надежность и простота восстановления. Эта стратегия наиболее эффективна в тех случаях, когда обеспечение надежности является определяющим фактором, объем базы данных небольшой, а интенсивность обновления невысокая (например, базы данных с интенсивными запросами справочного характера).
Смешанная стратегия. Возможны два основных типа. При смешанной стратегии типа А создается несколько копий локальных баз данных, в каждом узле находится некоторый фрагмент распределенной базы данных. При этой стратегии объединяются подходы, предполагающие расчленение и дублирование данных. Основное преимущество - гибкость. Недостатки определяются сложностью реализации, т. е. для этой стратегии характерны недостатки, присущие как расчленению, так и дублированию. Смешанная стратегия типа В представляет собой объединение стратегий расчленения и централизации. Каждая локальная информационная система имеет свою ЛБД, но некоторые фрагменты этих ЛБД (особо важные, архивные и т. п.) организуются в базе данных центральной ЭВМ РИС. Основными достоинствами являются гибкость и надежность, недостатки-то же, что и при централизации данных.
Отметим, что в практических приложениях целесообразно, как правило, использование смешанных стратегий. При этом выбор типа смешанной стратегии во многом определяется архитектурой той информационно-вычислительной сети, на которой реализуется конкретная распределенная информационная система.
Возможность объединения локальных баз данных, а следовательно, и создания эффективного внутрисистемного обеспечения систем автоматизации и информационных систем достигается при разработке интегрированной базы данных (ИБД), важнейшим элементом которой является система управления распределенными базами данных (СУРБД). СУРБД обычно имеет многоуровневую архитектуру, в которой выделяются пять уровней, подразделяемых на две основные части.
Верхние четыре уровня процессоров - пользовательский, глобальный, логический, фрагментарный и распределенный могут быть сгруппированы и рассматриваться как сетевая СУБД, т. е. система, обеспечивающая работу с распределенными на ИВС данными. На пятом уровне находится процессор узлового представления, в качестве которого выступаем СУБД локальной базы данных или локальная СУБД. Каждый из уровней поддерживает различные представления интегрированной базы данных. Любой уровень взаимодействует только со смежными уровнями представления. На самом верхнем уровне СУРБД находятся интерфейсы пользователей систем автоматизации, входящих в ИПК, или локальных информационных систем РИС, которые могут рассматриваться как процессоры запросов.
Уровень глобального логического представления соответствует логической структуре всей интегрировав- ной базы данных ИНК в представлении руководителей служб, деятельность которых автоматизируется локальными ПС или подсистемами интегрированного производственного комплекса. Часть, являющаяся подмножеством глобального логического представления и доступная конечным пользователям интегрированной базы данных, называется, пользовательским уровнем представления. Каждый пользователь может иметь отличное от других пользовательское представление, соответствующее его информационным потребностям и требованиям защиты информации.
Введение третьего и четвертого уровней представления является следствием распределенности интегрированной базы данных и наличия в ней некоторой управляемой избыточности данных. Уровень фрагментарного представления позволяет описать несвязанные подмножества интегрированной базы данных, называемые логическими фрагментами. Территориальное расположение на информационно-вычислительной сети РИС каждого логического фрагмента определяется на четвертом уровне- уровне распределенного представления. При этом разрешается существование нескольких идентичных, но территориально разнесенных копий одного фрагмента, называемых хранимыми фрагментами. Размещение хранимых фрагментов, представляющих собой физическую реализацию ЛБД, определяется принятыми при построении распределенной информационной системы ограничениями по памяти входящих в ИВС ЭВМ и требуемым временем реализации запроса.
Как правило, базы данных локальных информационных систем, составляющих РИС, проектируются при использовании некоторой общей СУБД. Образуемая при этом система локальных баз данных получила название системы однородных ЛБД.
Если для построения локальных систем используются разнотипные системы управления базами данных, то получаемая в результате система ЛБД является неоднородной. Для неоднородных систем интеграция локальных БД существенно усложняется. В этом случае на передний план выступает задача конвертирования баз данных, т. е. реорганизация БД, спроектированной в схеме одной СУБД, в базу данных того же содержания, но в схеме другой системы управления базами данных.
Сложные информационные структуры и работающие с ними системы
Развитие методов новой информационной технологии обеспечивает возможность развития информационных систем в ИС нового типа, позволяющих хранить, накапливать, обрабатывать и представлять пользователям более сложные информационные структуры, чем данные, -такие как правила получения результатов, фактов, не полностью формализованных алгоритмов решения задач и т. п. Эти сложные информационные структуры получили название «машинное знание». Следует отметить, что хотя сейчас уже достаточно интенсивно используются такие понятия, как «база знаний», «представление знаний», сам термин «знание» в области информатики, вычислительной техники, автоматизации производства еще до конца не определен. Понятие «машинное знание» возникло в области искусственного интеллекта еще в середине 60-х годов, когда были построены первые диалоговые системы и решатели задач. Тогда для этой цели впервые были использованы семантические сети. Однако, несмотря на весьма интенсивное развитие этого направления и создание ряда формализмов для представления знаний (фреймы, ассоциативные сети, продукционные отношения и т. п.), однозначно сформулировать понятие «машинное знание» до сих пор не удается.
В настоящее время под знанием в информатике понимаются: информация, представленная в виде текста на профессионально-ограниченном естественном языке; данные, управляющие решением прикладных программ; готовые программные средства (машинные алгоритмы, большей частью эвристические), сформированные для определенного класса задач и автоматически вызываемые системой при решении конкретной прикладной задачи; описания объектов и ситуаций; информация, формируемая в процессе решения конкретных задач и используемая в дальнейшем для решения других задач данного класса (новые знания).
Системы, строящиеся по принципу баз данных, но хранящие и представляющие пользователю по его запросу те или иные знания по предметной области, получили название баз знаний (БЗ). Очевидно, что БЗ и базы данных являются информационными системами «родственных» классов, причем базу знаний можно рассматривать как некоторое развитие БД, включающую в свой состав базу данных как статическую часть. Основной проблемой создания БЗ является представление знаний.
Как уже отмечалось, одним из первых формализмов, используемых для представления знаний различных предметных областей, являются семантические сети (С -сети). Графической моделью сложной информационной структуры при использовании С -сетей выступает граф, множество вершин которого моделирует рассматриваемые информационные объекты, а множество дуг - семантические отношения между этими объектами. Первые семантические сетевые модели не предполагали строгого различия между разнородными вершинами. Они допускали представление в одной С -сети как экземпляров конкретных объектов, так и классов (типов) объектов. Здесь представляется уместным более подробно рассмотреть два понятия, которые относятся к числу основных при построении различных формализмов представления знаний.
Любое, используемое в практической деятельности понятие может быть охарактеризовано экстенсионалом и интенсионалом. Трактуя эти характеристики прагматически, условимся понимать под экстенсионалом набор конкретных данных, определяющих некоторое понятие и представленных в декларативной форме. Например, экстенсионалом дворняжка, такса, овчарка будет понятие собаки, экстенсионалом понятий собака, кошка - понятие домашние животные. Интенсионал же, как правило, определяет некоторую процедуру, позволяющую оценить принадлежность конкретного факта к некоторому понятию. Например, интенсионал для включения экстенсионалов (дворняжка, такса, овчарка) в экстенсионал собаки может быть задан в следующем виде: бегает на четырех лапах, имеет хвост, лает, кусается).
Другими словами, интенсионал выделяет знания, отделяет их от данных, которые всегда задаются экстенсионально. С понятиями экстенсионал может быть соотнесена декларативная (статическая) часть базы знаний, с понятием интенсионал - процедурная часть БЗ.
Таким образом, на начальном этапе развития семантических сетей в них не предусматривали введения различий между экстенсиональными и интенсиональными вершинами. Для соединения разнотипных вершин использовались идентичные типы дуг. Позднее С -сети были развиты в сторону сближения с моделями данных, разработанными в теории систем управления базами данных. Так, во многих С -сетях установлены формальные различия между разнотипными вершинами и дугами. В современных С -сетях особую роль играет определение семантической близости, расстояния, измеренного на семантической сети. Для этого имеется возможность в явной форме отразить отрицание взаимосвязи между вершинами.
Основным элементом семантической дуги является высказывание, которое отображается подграфом и является той минимальной информационной структурой которая вводится и хранится в С -сети. Каждая вершина С -сети отображает один объект, что позволяет задать для нее несколько входящих и выходящих дуг, связанных с .различными высказываниями.
Базовым понятием С -сети является понятие “сущность”. Все сущности рассматриваются в качестве элементов некоторого универсального множества. Введение понятия сущность связано с представлением о регулярности мира, в соответствии с которым реальный мир рассматривается состоящим из стереотипных (часто повторяющихся) ситуаций. Под ситуацией может пониматься некоторый предмет, свойства предмета в определенный момент времени, действие, зрительный образ, повествование и т. д. Стереотипная ситуация есть множество конкретных ситуаций. Например, конкретная ситуация - выпуск продукции ГПС механообработки тел вращения -соответствует стереотипным ситуациям: «гибкая производственная система», «выпуск продукции», «обработка тел вращения». Конкретные ситуации могут быть элементарными, т. е. не иметь внутренней структуры и быть пределом работоспособности в данной модели внешнего мира, и сложными, т. е. связанными с несколькими другими конкретными ситуациями, дополняющими исходную. Такой подход к описанию внешнего мира позволяет трактовать процесс представления знаний как соглашение о том, как, используя стереотипные и конкретные ситуации, описывать внешний мир.
Для отображения семантических отношений в С -сетях используются четыре класса связей: лингвистические, логические, теоретико-множественные и квантификационные. Лингвистические связи включают: глубинно-падежные отношения (падежи Филмора), соответствующие глаголам русского языка (агент совершаемого действия; тема или предмет, над которым совершается действие; источник или начальное состояние объекта; цель конечное состояние объекта; инструмент или вспомогательный объект, характеризующий способ совершения действия; способ или путь достижения цели); глагольные характеризации (время, наклонение, вид, род, число, залог используемого глагола); атрибутивные отношения (модификация, цвет, вес, размер, форма, отношения принадлежности и т. п.). Логические связи включают операции алгебры логики (конъюнкцию, дизъюнкцию, отрицание, импликацию). Теоретико-множественные связи -это отношение части и целого, элемент множества, подмножество и т. д., которые используются для построения иерархии подчинения. Наконец, квантификационные связи отображаются логическими кванторами (существования и общности), нелогическими кванторами (много, мало, несколько и т. п.), а также числовыми характеристиками объектов.