Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ в экономике.doc
Скачиваний:
3
Добавлен:
19.11.2019
Размер:
799.74 Кб
Скачать

3.3.2. Загрузка данных в Хранилище

В процессе загрузки данных в Хранилище выполняется сбор данных, их преобразование (очистка, интегрирование), агрегирование. В Хранилище также хранится информация об источниках данных. Понятие и назначение агрегирования были описаны выше (см. п. 3.1), поэтому здесь мы подробнее рассмотрим первые три понятия.

Для выполнения функций сбора, преобразования и загрузки данных в Хранилище применяются специальные ETL - комплексы программ (Extraction, Transformation, Loading). Эти комплексы извлекают информацию из оперативных баз данных различных типов, преобразуют ее в формат, поддерживаемый Хранилищем и загружают в Хранилище [71].

В процессе извлечения данных выполняется их чтение из баз данных оперативно меняющейся информации. Перед помещением данных в Хранилище, они должны быть очищены. Это один из этапов трансформации данных. Основная задача очистки - отсев неточных данных. Что такое "грязные" данные? Например, при заполнении Базы данных Отдела кадров необходимо указывать Индивидуальный номер налогоплательщика. Не все работники имеют такой номер, однако поле формы является обязательным для заполнения. Поэтому оператор пишет фиктивные данные. Другим примером может служить указание устаревшего адреса сотрудника в базе. Хранящиеся в базе данные могут выходить за пределы установленных в Хранилище для таких атрибутов значений. Например, год приема на работу сотрудника предприятия не может быть меньше года создания предприятия. Данные, помещаемые в Хранилище, должны быть абсолютно точными, поэтому они очищаются средствами специальных программ, составляющих метаданные, от ложной и устаревшей информации. Объединение данных из различных баз представляет собой процедуру интегрирования. При этом надо привести к единому формату, например, структуру телефонных номеров, способ представления даты (дд/мм/гггг или мм/гг). В разных базах может быть использована разная аббревиатура для обозначения одного и того же клиента или разные значения ключевых полей. Как и в предыдущем случае, специальные программные комплексы, составляющие часть метаданных, автоматически преобразуют и объединяют данные из различных баз. В процессе преобразования данных перед загрузкой их в хранилище также могут создаваться новые поля, например, это поле для подсчета прибыли по сделке, если все необходимые данные находятся в полях оперативных баз данных, из которых извлекается информация. Для выполнения вычислений могут быть использованы арифметические выражения со встроенными функциями, логические операции. В процессе выполнения преобразований, данные хранятся в специальной промежуточной базе. После преобразования данных выполняется их загрузка в Хранилище из этой промежуточной базы.

Из всего сказанного выше следует, что аккуратно определенные метаданные являются основой заполнения и функционирования Информационного хранилища. Метаданные хранятся в репозитарии, который представляет собой отдельную базу данных, содержащую информацию о самом Хранилище. В репозитарии хранится информация о том, какие оперативные базы данных являются источниками информации, описана структура хранения информации в этих базах, хранятся программы преобразования данных и даже программы построения аналитических отчетов. Репозитарии может сохранять историю преобразования данных. В результате, возможно не только определение источника данных Хранилища, но и восстановление выполненных над данными операций. Метаданные, хранящиеся в репозитарии, позволяют создавать информационно - справочные сервисы, показывающие изменения, происходящие в Хранилище.

Для примера, рассмотрим возможности службы репозитария, входящей в состав СУБД SQL Server фирмы Microsoft. Служба предоставляет следующие возможности: средства для описания метаданных; процессор репозитария, который позволяет выполнять поиск метаданных, ведет историю изменения метаданных (например, вы можете определить, когда была изменена структура таблиц для хранения информации в Хранилище или структура аналитического отчета). В репозитарии также могут храниться: схемы данных22 оперативных баз -источников информации; схемы данных Хранилища; данные для многомерного анализа информации (реализации OLAP анализа - см. п. 3.4.1), программы извлечения, преобразования и загрузки данных в Хранилище. Программы эти специфичны для каждого Хранилища и создаются с помощью службы DTS (Data Transformation Service ). DTS позволяет создавать такие программы с помощью специального редактора, указывая в диалоговом режиме таблицы - источники и таблицы назначения в Хранилище. Необходимые преобразования описываются на специальном встроенном языке программирования [72].

22Схема данных Базы иллюстрирует взаимосвязь объектов предметной области. Учитывая эти связи, можно строить отчеты, содержащие информацию о разных объектах, каждый из которых описывается отдельной таблицей. Например, для Базы данных студенческой библиотеки, которая была описана в п. 3.2, схема данных изображена на рис.24.