Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
khranilischa_kr.docx
Скачиваний:
49
Добавлен:
15.03.2015
Размер:
730.88 Кб
Скачать

Обобщенная структура процесса etl Архитектуры хранилищ данных

Реляционные ХД используют классическую реляционную модель, характерную для оперативных регистрирующих OLTP-систем. Данные хранятся в реляционных таблицах, но образуют специальные структуры, эмулирующие многомерное представление данных. Такая технология обозначается аббревиатурой ROLAP — Relational OLAP.

Многомерные ХД реализуют многомерное представление данных на физическом уровне в виде многомерных кубов. Данная технология получила название MOLAP — Multidimensional OLAP.

Гибридные ХД сочетают в себе свойства как реляционной, так и многомерной модели данных. В гибридных ХД детализированные данные хранятся в реляционных таблицах, а агрегаты — в многомерных кубах. Такая технология построения ХД называется HOLAP — Hybrid OLAP.

Виртуальные ХД не являются хранилищами данных в привычном понимании. В таких системах работа ведется с отдельными источниками данных, но при этом эмулируется работа обычного ХД. Иначе говоря, данные не консолидируются физически, а собираются непосредственно в процессе выполнения запроса. В настоящее время не используются.

Шесть уровней архитектуры хранилища данных

I. Первый уровень представлен источниками данных, в качестве которых выступают транзакционные и унаследованные системы (Legacy Systems), архивы, разрозненные файлы известных форматов, документы MS Office, а также любые иные источники структурированных данных.

II. На втором уровне размещается система ETL. Основная задача ETL – извлечь данные из разных систем, привести их к согласованному виду и загрузить в хранилище. Программно-аппаратный комплекс, на котором реализована система ETL, должен обладать значительной пропускной способностью и высокой вычислительной производительностью.

III. Роль следующего уровня – надежное, защищенное от несанкционированного доступа, хранение данных. На этом уровне должны размещаться также системы ведения метаданных и нормативно-справочной информации (НСИ).

Оперативный склад данных (Operational Data Store) необходим тогда, когда требуется как можно более оперативный доступ к пусть неполным, не до конца согласованным данным, доступным с наименьшей возможной задержкой.

Зоны временного хранения (Staging area) нужны для реализации специфического бизнес–процесса, например, когда перед загрузкой данных контролер данных должен просмотреть их и дать разрешение на их загрузку в хранилище. Выделение зон временного хранения в отдельный компонент ХД необходим, так как для этих зон требуется создание дополнительных средств администрирования, мониторинга, обеспечения безопасности и аудита.

IV. Информационные системы на уровне распределения данных выполняют задачи, значительно отличающиеся от задач ETL, а именно, выборку, реструктуризацию и доставку данных (SRD – Sample, Restructure, Deliver) ETL извлекает данные из множества внешних систем. SRD выполняет выборку из единого хранилища данных. ETL получает несогласованные данные, которые надо преобразовать к единому формату. SRD имеет дело с очищенными данными, структуры которых должны быть приведены в соответствие с требованиями различных приложений. ETL загружает данные в центральное хранилище. SRD должно доставить данные в различные витрины в соответствии с правами доступа, графиком доставки и требованиями к составу информации.

V. Уровень предоставления данных предназначен для разделения функций хранения и функций обслуживания различных задач.

Витрина (киоски) данных (data marts) — срез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента. Витрины данных должны иметь структуры данных, максимально отвечающие потребностям обслуживаемых задач. Поскольку не существует универсальных структур данных, оптимальных для любой задачи, витрины данных следует группировать по территориальным, тематическим, организационным, прикладным, функциональным и иным признакам.

Концепция витрин данных имеет ряд несомненных достоинств:

  • Аналитики видят и работают только с теми данными, которые им реально нужны.

  • Целевая БДмаксимально приближена к конечному пользователю.

  • Для реализации витрин данных не требуется мощная вычислительная техника.

  • Относительно небольшой объем хранимых данных, на организацию и поддержку которых не требуется значительных затрат.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]