Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Аксенов А.И.,Кривец А.Ф. Корпоративные информац....doc
Скачиваний:
41
Добавлен:
10.11.2018
Размер:
1.4 Mб
Скачать
    1. Корпоративные базы данных и требования, предъявляемые к ним

Корпоративная база данных – это общесистемный интегрированный накопитель данных, призванный обеспечить информацией эффективное управление всеми бизнес-процессами и подразделениями корпорации.

Интеграция данных предусматривает создание новой структуры, органически включающей в себя данные из баз отдельных обособленных подразделений, поэтому подобная структура должна обеспечивать определенные требования:

  • Простой и понятный пользователю ввод данных в базу,

  • Хранение данных в виде, который не приведет к чрезмерному разрастанию данных,

  • Доступность к общей информации сотрудников всех подразделений корпорации при обязательном условии разграничения прав доступа,

  • Быстрое нахождение и выборка требуемой информации,

  • Сортировку и фильтрацию необходимых данных,

  • Группировку одноименных данных,

  • Промежуточные и итоговые вычисления над полями,

  • Преобразование и наглядность выводимых данных,

  • Масштабируемость,

  • Защищенность от случайных сбоев, безвозвратной потери данных и несанкционированного доступа.

Кроме того, при интеграции обособленных (распределенных) баз данных в единую корпоративную базу важно обеспечить возможность работы с базой таким образом, чтобы пользователь работал с ней так, как с нераспределенной.

Создание интегрированной корпоративной базы данных возможно различными методами, основными из которых являются:

  • Консолидация,

  • Федерализация,

  • Распространение.

    1. Характеристика интеграционных решений корпоративных баз данных

Консолидация. Под консолидацией обычно понимается сложение одноименных данных. Подобный термин широко используется в банковской сфере, где формируется ежегодный консолидированный баланс, который позволяет представить все активы и пассивы головного банка совместно с его филиалами.

Применительно к корпорации при использовании этого метода данные копируются и собираются из первичных баз (БД – Slave) путем интеграции в единое место хранения (БД –Master). Как правило, таким местом хранения выбирается сервер центрального (головного) офиса (рис.5.1).

Рис.5.1. Метод консолидации данных

Данные в БД – Master используются для подготовки отчетности, проведения анализа, выработки и принятия решения, а также как источник данных для других филиалов корпорации.

Наиболее распространенными технологиями поддержки таких решений при консолидации являются технологии:

  • Извлечение, преобразование и загрузка - ETL (Extract Transform Load);

  • Управление содержанием корпорации - ECM (Enterprise Content Management).

Достоинствами метода консолидации являются:

1. Возможность осуществлять трансформацию (реструктуризацию, согласование, очистку и/или агрегирование) значительных объемов данных в процессе их передачи от первичных систем к конечным местам хранения за счет технологии ETL,

2. Возможность управления неструктурированными данными, такими как документы, отчеты и страницы благодаря технологическим решениям ECM.

Для работы с консолидированной базой данных КИС создаются специальные бизнес-приложения, которые позволяют создавать запросы к данным базы, отчеты и, на их основе, осуществлять анализ данных.

Недостатками интеграции посредством консолидации являются:

Невозможность обновления консолидированных данных в интегрированном месте хранения синхронно с обновлениями данных в первичных системах из-за возникающих конфликтов при синхронизации.

Отдельные бизнес-приложения решают проблему конфликтов путем создания специальных разделяемых таблиц, после обновления данных в которых, изменения передаются назад в первичные системы.

Наличие задержки времени между моментами обновления данных в первичных системах и в конечном месте хранения.

Такое отставание может составлять от нескольких секунд до нескольких часов или даже дней. При значительных задержках приближение такого процесса к режиму реального времени достигается путем создания специальных "запросов на обновление", выполнение которых периодически обеспечивает обновление консолидированных данных за счет получения "моментальных снимков" первичных данных. Если отставания незначительные по времени, обновления контролируются оперативными блоками приложений интеграции данных, которые работают в непрерывном режиме, отслеживают и передают изменения данных из первичных систем в конечные места хранения. Подобные блоки обеспечивают захват измененных данных, накопление их в специально отведенных местах, идентификацию и обновление. Вместе с тем, следует заметить, что процесс передачи изменений выполняется лишь после того, как произойдут определенные события, а извлечение этих данных производится по требованию.

Федерализация. Под федерализацией обычно понимается объединение. Подобный термин часто используется в политике при обустройстве границ государства (например, ФРГ, РФ, США).

Процесс федерализации данных в корпоративной базе представляет собой создание виртуальной (кажущейся) картины, объединяющей в единое виртуальное целое несколько первичных файлов данных (см.рис.5.2). Собственно федерализация данных заключается в извлечении данных из первичных систем на основании внешних требований. Управление работой корпоративной БД интегрированной по федеральному методу осуществляет процессор федерализации.

Рис.2. Метод федерализации данных

Обращаясь за данными в виртуальную БД, любое бизнес-приложение формирует запрос к виртуальной картине. Процессор федерализации на основании этого запроса извлекает данные из соответствующих первичных систем, интегрирует их в соответствии с виртуальной картиной и выдает результат бизнес-приложению, которое сформировало запрос. При этом все необходимые преобразования данных осуществляются при их извлечении из первичных систем.

Поддержку федеративного подхода к интеграции данных обеспечивает технология Enterprise information integration (E I I), что в переводе означает – Интеграция корпоративной информации.

Особенностью федеративного решения является то, что для доступа к первичным данным процессор федерализации использует метаданные (знания), в составе которых наличествуют данные о составе и характеристиках виртуальной картины, о количестве данных, семантических связях между ними и путях доступа к ним, способствующие помочь федеративному решению оптимизировать доступ к первичным системам.

Основными достоинствами федеративного подхода являются:

  • возможность доступа к текущим данным без создания дополнительной новой базы данных,

  • целесообразность применения после приобретения или слияния компаний,

  • незаменимость в тех случаях, когда по соображениям безопасности существуют лицензионные ограничения на копирование данных первичных систем,

  • использование при необходимости высокой автономии местных подразделений корпорации и гибкости централизованного контроля их деятельности,

  • высокая степень полезности для крупных транснациональных корпораций.

К недостаткам подхода следует отнести:

  • Снижение производительности из-за дополнительных затрат на доступ к многочисленным источникам данных,

  • федерализация наиболее приемлема для извлечения небольших массивов данных,

  • высокие требования к качеству первичных данных.

Распространение. Под распространением обычно понимается территориальное перенесение размноженных объектов. Под распространением данных понимается размножение первичных баз данных и перемещение их из одного места в другие. При реализации данного метода бизнес – приложения работают в оперативном режиме и производят перемещение данных к местам назначения в зависимости от происходящих определенных событий. Для данного технического решения важным становится вопрос обновления данных, которые возможны в синхронном или асинхронном режимах. Синхронный режим предполагает, чтобы обновления и в первичной системе и в конечной системе происходили во время одной и той же физической транзакции.

Примерами технологий, поддерживающих реализацию метода распространения данных, являются:

  • Интеграция корпоративных приложений EAI – Enterprise Application Integration,

  • Тиражирование корпоративных данных EDR – Enterprise Data Replication.

Обобщенная структура реализации метода распространения данных имеет вид рис.5.3.

Рис.5.3. Метод распространения данных

Отличительным признаком метода распространения данных является гарантированная доставка данных в систему назначения с минимальной задержкой, близкой к реальному режиму времени.

Сочетание в методе технологий интеграции (EAI) и тиражирования (EDR) дает множественные преимущества, в виде следующих достоинств:

  • Высокая производительность,

  • Возможность реструктуризации и очистки данных,

  • Уравновешивание нагрузки за счет создания резервных копий и восстановления данных.

Гибридный подход. Реалии экономической деятельности таковы, что не существует двух одинаковых предприятий, тем более двух одинаковых корпораций. Данное обстоятельство накладывает свой отпечаток на процесс создания и наполнения КИС. Это всецело относится и к методам интеграции данных в базах. По этой причине многие КИС используют в своих приложениях интеграции данных так называемый гибридный подход, который одновременно включает несколько методов интеграции. Примерами такого подхода служат технологии, обеспечивающие согласованную картину информации о клиентах:

  • Интеграция данных о клиентах в системах CDI – Customer Data Integration,

  • Интеграция данных о клиентах в модулях CRM – Customer Relations Management.

В частности, подход к реализации CDI может быть выполнен различными путями.

Наиболее простой способ – это создание консолидированной базы данных о клиентах, которая содержит данные от первичных систем. При этом отставание информации может регулироваться использованием различных режимов консолидации: оперативного или пакетного в зависимости от частоты обновления этой информации.

Второй способ – это федерализация данных, когда формируются виртуальные бизнес – представления данных о клиентах, содержащиеся в первичных системах. А файл метаданных может содержать общие ключевые элементы, которые можно использовать для взаимосвязи информации о клиентах.

Говоря более образно – общие (например, реквизиты) данные о клиентах могут быть консолидированы, как наиболее статические данные. А более динамичные данные (например, сведения о заказах) можно подвергнуть федерализации.

Более того, гибридный подход может быть расширен использованием метода распространения данных. Например, клиент, пользующийся услугами Интернет – магазина, во время обслуживания изменяет свои реквизиты. Эти изменения могут быть отправлены в консолидированную часть БД, а оттуда распространены во все первичные системы, содержащие данные о клиентах магазина.

Памятуя о достоинствах и недостатках каждого из методов целесообразно творчески подходить к их применению и совместному использованию.

Так, например, федерализацию данных целесообразно использовать в тех случаях, когда затраты на консолидацию данных превышают выгоды бизнес – преимуществ, которые консолидация предоставляет. В частности, оперативная обработка запросов и подготовка отчетов именно такая ситуация.

Практическое применение метода распространения данных отличается большим разнообразием, как в плане производительности, так и в отношении возможностей по реструктуризации и очистки данных. Отдельные корпоративные продукты распространения данных могут поддерживать перемещение и реструктуризацию крупных массивов данных, в то время как технология EAI зачастую имеет ограниченные возможности передвижения больших массивов данных и их реструктуризации. Для решения такой проблемы используется технология тиражирования EDR.

    1. Понятие и структурные решения хранилищ данных [3,8]

Хранилище данных – это предметно-ориентированный интегрированный накопитель информации, аккумулирующий в себе внешние и оперативные данные, а также данные из других систем, на основе которых строятся процессы принятия решений и анализа данных.

Иными словами хранилище данных – это накопитель данных и знаний, обеспечивающий работу систем, построенных на принципах искусственного интеллекта. К таким системам в настоящее время относят системы поддержки принятия решений (СППР) и экспертные систем (ЭС).

В отличие от баз и банков данных, основой хранилищ данных являются не внутренние, а внешние источники данных: различные информационные системы, электронные архивы, общедоступные электронные каталоги, справочники и сборники.

В основе концепции хранилищ данных положены две основные идеи:

  1. Интеграция разъединенных детализированных данных (описывающих конкретные факты, свойства, события и т.д.) в едином хранилище.

  2. Разделение наборов данных и приложений, используемых для обработки и анализа.

Хранилище данных организуется в тех случаях, когда необходимо получить:

  • Интеграцию текущих и исторических значений данных,

  • Объединение данных из разрозненных источников,

  • Создание надежной платформы данных для аналитических целей,

  • Обеспечение однородности данных в организации,

  • Облегчение внедрения корпоративных стандартов данных без изменения существующих операционных систем,

  • Обеспечение широкой исторической картины и возможностей для анализа тенденций развития.

Хранилища данных могут быть различных типов, могут опираться на различные методологии построения, однако все они имеют некоторые общие признаки:

  • Информация в хранилище данных организуется вокруг базовых понятий, используемых в деятельности предприятия (например, поставщики, товары, клиенты),

  • Данные собираются из различных источников и приложений, очищаются от ошибок и представляются в виде, понятном пользователям,

  • На основании отзывов пользователей и обнаруженных закономерностей, архитектура со временем претерпевает изменения.

Исторически хранилища данных строились по одно- двух и трехуровневой схеме.

Одноуровневые схемы изначально предназначались для наиболее простых архитектур, к которым относятся функциональные СППР, с недостаточно развитой информационной инфраструктурой, когда анализ осуществляется с использованием данных из оперативных систем, по принципу: данные - формы представления.

Достоинствами таких схем являются:

  • Быстрая передача данных из оперативных систем в специализированную систему без промежуточных звеньев,

  • Минимум затрат за счет использования единой платформы.

Недостатки:

  • Узкий круг решаемых вопросов из-за единственного источника данных,

  • Низкое качество данных ввиду отсутствия этапа очистки.

Двухуровневые схемы предусматривают цепочку: данные – витрины данных – формы представления. Применяются в корпорациях с большим количеством независимых подразделений, использующих собственные информационные технологии.

Достоинства:

  • Используемые витрины проектируются для ответов на конкретный ряд вопросов,

  • Имеется возможность оптимизировать данные в витринах, что способствует повышению производительности.

Недостатки:

  • Сложность обеспечения непротиворечивости данных из-за многократного их повторения в витринах,

  • Потенциальная сложность наполнения витрин при большом числе источников данных,

  • В виду отсутствия консолидации данных на уровне корпорации нет единой картины бизнеса.

Эволюция развития привела к тому, что построение полноценного хранилища данных для современных корпоративных систем стало выполняться по трехуровневой архитектуре (см. рис.5.4).

На первом уровне расположены разнообразные регистрирующие системы, являющиеся источниками данных. Такими системами могут быть системы планирования ресурсов предприятия (ERP – Enterprise Resource Planning), справочные (оперативные) системы, внешние источники или системы, поставляющие данные от информационных агентств и др.

На втором уровне содержится центральное хранилище, куда стекаются данные от всех источников первого уровня, а также оперативный склад данных, который предназначен для выполнения двух функций:

  • Склад является источником аналитической информации, используемой для оперативного управления,

  • В оперативном складе подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных подразумевается проведение проверок и преобразование данных в связи с различным регламентом поступления данных от первого уровня.

Рис.5.4. Архитектура хранилища данных

Третий уровень представляет собой совокупность предметно-ориентированных витрин данных.

Витрины данных – это сравнительно небольшие функционально-ориентированные накопители, содержимое которых способствует решению аналитических задач отдельных подразделений корпорации. Фактически витрины данных представляют собой подмножества данных из хранилища. Вместе с тем конечные пользователи имеют возможность доступа к детальным данным хранилища, в случае, если данных в витрине недостаточно, а также для получения более полной картины состояния бизнеса.

Основными технологическими операциями подобным образом организованных хранилищ данных являются:

  • Извлечение данных – это процесс переноса данных из неоднородных источников в оперативный склад,

  • Преобразование данных – это модификация данных на основе специальных правил с последующей передачей их в центральное хранилище,

  • Очистка данных – это исключение дублирования данных, поступающих от разных источников,

  • Загрузка данных – это проверка целостности, сортировка, суммирование, агрегирование, проверка статуса данных,

  • Обновление данных – это распространение обновления данных на исходные данные базовых таблиц и производные данные, размещенные в хранилище.

Достоинства:

  • Наполнение витрин упрощено ввиду использования единого источника очищенных данных,

  • Витрины данных синхронизированы с корпоративной бизнес – картиной, что позволяет легко расширить центральное хранилище и добавить витрины данных,

  • Гарантированная производительность.

Недостатки:

  • Наличие избыточности данных, ведущее к росту требований к технологии хранения данных,

Независимо от принятой схемы решения хранилище данных призвано обеспечить:

  1. Анализ текущих данных и тенденций их изменений. Главным преимуществом хранилища данных является то, что наряду с детальными записями в нем хранятся и суммарные показатели. Кроме того, производственные показатели постоянно меняются и обычно транзакции приводят к трансформации значений данных. Подобные проблемы решаются за счет создания "моментальных снимков" и размещения их в хранилище в хорошо определенных и законченных циклах, что позволяет проводить надежные сравнения разных периодов.

  2. Работу с данными как с активами корпорации. Данные представляют такой актив, который может разрастаться и тиражироваться практически безгранично в результате выполнения запросов на извлечение и при отсутствии строгой дисциплины могут в результате появляться мутации в каждом новом поколении. Даная задача решается за счет интеграции в хранилище данных из различных оперативных систем, что способствует получению наиболее объективной картины.

  3. Внедрение в практику различий в определениях данных и бизнес-планах. При выявлении различий в определениях данных, хранилище позволяет после извлечения данных из оперативной системы произвести их трансформацию под стандарт конкретной КИС в процессе загрузки в хранилище данных.

  4. Поддержку производительности и времени реагирования оперативных систем. Обработка запросов или создание отчетов с помощью базы данных, используемой оперативным приложением, отрицательно сказывается на производительности от чего их выполнение должно быть отложено и возможно навсегда. Хранилище данных решает эту проблему тем, что запрос выгружается в среду, в которой база данных может быть оптимизирована для их выполнения.

В заключение вопроса следует заметить, что оперативные и аналитические системы целесообразно использовать в рамках единой КИС, так как они дополняют друг друга. Так, например, аналитические задачи требуют проведение анализа тенденций изменения, сбора данных с отметками времени из многочисленных источников в единое хранилище или витрину данных с целью прогноза. В то время как операционные цели требуют создавать отчеты на основе данных, хранящихся в оперативных системах.

При решении отмеченных задач используются различные методы интеграции, способствующие созданию оперативных складов, центральных хранилищ и витрин данных, которые в итоге обеспечивают корпорацию возможностями для принятия надежных бизнес – решений.