Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема4.doc
Скачиваний:
5
Добавлен:
25.12.2018
Размер:
307.71 Кб
Скачать

Відмінності між бд та dw.

Операційні БД

Сховища даних (DW)

транзакційні

аналітичні

операційні

інформаційні

прикладні

тематично- орієнтовані

наперед обумовлений тип доступу,пошукова система

незапланований пошук (запити,звіти,оператори OLAP)

застосовуються в OLTP-системах

застосовуються в OLAP-системах

зберігають детальні дані

зберігають узагальнені дані

в часі зберігаються поточні дані

зберігаються історичні (архівні) дані

дані подаються в нормалізованому вигляді

дані подаються в денормалізованому вигляді

доступ для читання-запису

доступ лише для читання

Оскільки існують суттєві відмінності між БД та DW, то природньо, що і проектування DW здійснюється за своїми алгоритмами. У загальному випадку процес проектування сховищ даних складається з таких кроків:

1 крок. Проаналізуйте бізнес- процеси, які генерують дані, та інформаційні потреби організації.

Наприклад, бізнес- процесами можуть бути замовлення, відвантаження, продажі, тощо. Інформаційні потреби- це наявність відповідної інформації,наприклад, щоб визначити тенденції (тренди) бізнесу, сформувати стратегію маркетингу, проаналізувати конкурентоспроможність цін тощо.

Крок 2. Застосуйте цю інформацію для визначення структури таблиці (таблиць) фактичних даних, тобто структури окремих записів низького рівня, які слід ввести до таблиць фактичних даних. Наприклад, ми хочемо записати обсяги продажу продукції в різних магазинах.

Крок 3. Визначте структуру кожної таблиці фактичних даних. Наприклад, запишіть щоденні обсяги реалізації марок товарів в окремих магазинах.

Крок 4. Визначте для кожної таблиці фактичних даних:

  • якими є розмірності (об'єкти) та точно визначте поля для кожної розмірності;

  • які фактори потрібно записувати у таблиці фактичних даних (наприклад, які одиниці товарів продані, суми реалізації тощо).

Крок 5. Прийміть рішення, чи нормалізувати схему типу “зірка”, чи ні.

Крок 6. Прийміть рішення, як часто потрібно відбирати та завантажувати дані в DW. Наприклад, щогодини, щодня, щотижня тощо.

Спроектоване сховище необхідно заповнити даними. Для цього використовуються інструменти ETL (Extract Transform Load), призначені для відбору, перетворення (трансформації) та завантаження даних.

ETL є інтегрованим набором програмних інструментів, які підтримують такий процес (ETL):

  • відбір даних з джерел операційних даних (баз даних);

  • транспортування їх до цільового середовища (DW);

  • очищення даних (фільтрація);

  • перетворення (трансформація) даних;

  • завантаження очищених та трансформованих даних до DW.

Потрібно зауважити, що деякі інструменти etl об'єднують кілька кроків цього процесу, інші- здійснюють їх окремо. Сам процес etl може вимагати дуже багато часу і управління мета-даними.

При відборі даних операційні дані можуть знаходитися в таких джерелах:

  • базах даних, наприклад, ORACLE, SQL Server;

  • системах ERP;

  • ієрархічних системах, наприклад, Adabas, IMS, dBASE, IDMS, Focus тощо;

  • плоских файлах, наприклад ASC II files, VSAM. ISAM тощо;

  • даних на рівні Web.

На цьому кроці заповнення DW слід визначити, до яких полів в яких джерелах здійснити доступ та які записи відбирати.Може бути повний відбір, коли DW є пустим, або відбір з прирощенням (додаються дані до вже заповненого DW).

Під час транспортування даних потрібно визначити :

  • цільове середовище, тобто чи потрібно направляти відібрані дані просто до DW, чи їх зберігати в деякій БД для “повідомлення”;

  • як транспортувати дані.Деякі з джерел даних є віддаленими і їх потрібно перенести у мережу.Крім того, необхідно визначити, чи завантажувати дані до DW із застосуванням звичайних методів чи спеціальних інструментів завантаження.

При очищенні (фільтрації) даних, відібраних з джерел (БД), необхідно знайти і виправити:

  • дублювання даних;

  • зрізаний текст (наприклад, назва вулиці не вміщується у поле);

  • орфографічні помилки;

  • скорочення (наприклад,М.S. або МS).

На цьому кроці заповнення DW виникає проблема злиття- видалення (merge- purge).Наприклад, Алекс Тужілін і Александр Тужліу.

Для перетворення (трансформації) даних потрібні різноманітні і гнучкі засоби трансформації, що повинні давати змогу консолідації, інтеграції, узагальнення і підсумовування. Наведемо приклади випадків, коли потрібна трансформація:

  • різне кодування одних і тих самих даних;

  • різні умовні назви;

  • оперативні дані містять окремі торговельні операції, а нам у таблиці фактів потрібні підсумки щоденного продажу за марками товарів за кожним магазином.

Зазначимо, що часто трансформацію виконують за допомогою SQL- запитів.

На останньому кроці потрібно завантажити очищені та трансформовані дані до DW. Кроки очищення і /або трансформації можна об'єднати з кроком завантаження. Під час завантаження даних до DW потрібні спеціальні утиліти завантаження,оскільки існують величезні обсяги даних.

Засоби ЕТL розроблені для спрощення і упорядкування процесу ЕТL шляхом забезпечення user-friendly (дружнього до користувача) програмного забезпечення, що допомагає розробникам DW у виконанні кроків завантаження.Є багато постачальників ETL. Інформація про них подана на

www.dwinfocenter.org/clean.html.

Деякі компанії DW мають свої власні засоби ЕТL (наприклад,Оracle, IBM, Sybase).

Фізична організація DW. Чітко виділились два підходи. Дані можна зберігати:

  • винятково у реляційних таблицях (ROLAP);

  • таблиці факторів можна організувати як багатомірний куб (MOLAP) і цей куб може бути зв'язаний з таблицями вимірів через індекси.

В основу OLAP систем покладено поняття гіперкуба, тобто багатовимірного куба, у комірках якого зберігаються необхідні для аналізу дані.

У ROLAP- системах гіперкуб є віртуальним- це лише користувацький інтерфейс, який моделюється на традиційній реляційній базі даних.Дані в сховищі представляються у вигляді моделі, що отримала назву “зірка” (star schema).Ця модель складається з таблиць двох типів: однієї таблиці даних, що аналізуються, тобто фактів (fact table)-центр зірки і декількох таблиць, які характеризують певні виміри цих фактів (demension table).Таблиця фактів вміщує числові характеристики якогось напрямку діяльності компанії чи фірми, наприклад, обсяги продажу, а також ключі таблиць вимірів (наприклад, назва товару і його виробника, тип товару тощо). Дані таблиць вимірів денормалізовані. Якщо ж таблиці вимірів нормалізовані, то така модель називається “сніжинкою” (snow flake schema).У ROLAP- системах зберігаються агреговані дані. До переваг ROLAP- систем можна зарахувати такі:

  • підтримує відкриті стандарти SQL;

  • мінімізує вимоги до навчання і підтримки;

  • підходить для простого аналізу великих обсягів даних.

У МOLAP-системі гіперкуб будується фізично і реалізується як спеціальна модель нереляційної структури, яка швидше забезпечує доступ до даних, ніж реляційні моделі, але вимагає додаткових витрат пам'яті.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]