Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
РСБДтЗ / Курс лекций РСБДиЗ.doc
Скачиваний:
135
Добавлен:
05.03.2016
Размер:
1.63 Mб
Скачать

2. Лекция: Многомерное представление данных. Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий olap и oltp. Схемы звезда и снежинка. Агрегирование

Хранилище данных (Data Warehouse) - предметно - ориентированный,интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный дляподдержки принятия решений.

Хранилище данных содержитнепротиворечивыеконсолидированные исторические данные и предоставляет инструментальные средства для иханализа с целью поддержкипринятия стратегических решений. Информационные ресурсы хранилища данных формируются на основе фиксируемых на протяжении продолжительного периода времени моментальных снимков баз данных оперативной информационной системыи, возможно, различных внешних источников. В хранилищах данных применяются технологии баз данных, OLAP, глубинного анализа данных,визуализации данных.

Основные характеристики хранилищ данных.

  • содержит исторические данные;

  • хранит подробные сведения, а также частично и полностью обобщенные данные;

  • данные в основном являются статическими;

  • нерегламентированный, неструктурированный и эвристический способ обработки данных;

  • средняя и низкая интенсивность обработки транзакций;

  • непредсказуемый способ использования данных;

  • предназначено для проведения анализа;

  • ориентировано на предметные области;

  • поддержка принятия стратегических решений;

  • обслуживает относительно малое количество работников руководящего звена.

Термин OLAP (On-Line Analytical Processing) служит для описания модели представления данных и соответственно технологии их обработки в хранилищах данных. В OLAP применяется многомерное представление агрегированныхданных для обеспечения быстрого доступа к стратегически важной информации в целях углубленного анализа. Приложения OLAP должны обладать следующими основными свойствами:

  • многомерное представление данных;

  • поддержка сложных расчетов;

  • правильный учет фактора времени.

Преимущества OLAP:

  • повышение производительности производственного персонала, разработчиков прикладных программ. Своевременный доступ к стратегической информации.

  • предоставление пользователям достаточных возможностей для внесения собственных изменений в схему.

  • приложения OLAP опираются на хранилища данных и системы OLTP, получая от них актуальные данные, что дает сохранение контроля целостности корпоративных данных.

  • уменьшение нагрузки на системы OLTP и хранилища данных.

Olap и oltp. Характеристики и основные отличия

OLAP

OLTP

Хранилище данных должно включать как внутренние корпоративные данные, так и внешние данные

основным источником информации, поступающей в оперативную БД, является деятельность корпорации, а для проведения анализа данныхтребуется привлечение внешних источников информации (например, статистических отчетов)

Объем аналитических БД как минимум на порядок больше объема оперативных. для проведения достоверных анализа и прогнозирования вхранилище данных нужно иметь информацию о деятельности корпорации и состоянии рынка на протяжении нескольких лет

Для оперативной обработки требуются данные за несколько последних месяцев

Хранилище данных должно содержать единообразно представленную и согласованную информацию, максимально соответствующую содержанию оперативных БД. Необходима компонента для извлечения и "очистки" информации из разных источников. Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД(по историческим причинам).

Оперативные БД могут содержать семантически эквивалентнуюинформацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую

Набор запросов к аналитической базе данных предсказать невозможно.хранилища данных существуют, чтобы отвечать на нерегламентированные запросы аналитиков. Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т.д.)

Системы обработки данных создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании

При малой изменчивости аналитических БД (только при загрузке данных) оказываются разумными упорядоченность массивов, более быстрые методы индексации при массовой выборке, хранение заранееагрегированных данных

Системы обработки данных по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД(нормализованная структура БД, строки хранятся неупорядоченно, B-деревья для индексации,транзакционность)

Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты (индивидуальные права доступа к определенным строкам и/или столбцам таблицы)

Для систем обработки данных обычно хватает защиты информации на уровне таблиц

Соседние файлы в папке РСБДтЗ