Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lek2.doc
Скачиваний:
40
Добавлен:
14.05.2015
Размер:
3.72 Mб
Скачать

Корпоративное хранилище данных

Хранилище данных (DW ‑ Data Warehouse) ‑ специальным образом администрируемая база данных.

Основные идеи DW :

  1. Интеграция разъединенных детализированных данных. В процессе интеграции должно выполняться согласование данных и, возможно, их агрегация.

  2. Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.

Общая структурная схема DW

Специфические свойства DW:

  • предметная ориентация;

  • интегрированность данных;

  • инвариантность во времени;

  • неразрушаемость – стабильность информации;

  • минимизация избыточности информации.

В самом простом варианте для DW используется та модель данных, которая лежит в основе транзакционной системы, т.е. реляционная модель.

При этом самой сложной задачей становится выполнение нерегламентированных, заранее не предусмотренных запросов (ad-hoc запросы от лат. ad hoc «для этого» ‑ для специальной цели)

Для DW было предложено использовать схемы данных, получившие названия "звезда" и "снежинка". Суть технологии проектирования этих схем заключается в выделении из общего объема информации собственно анализируемых данных (или фактов) и вспомогательных данных (называемых измерениями).

Системы оперативной аналитической обработки данных

OLAP (On-Line Analytical Processing)

OLAP ориентирована главным образом на нерегламентированные интерактивные запросы и часто используется в хранилищах данных.

В основе OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные. Измерения представляют собой совокупности значений других данных.

В зависимости от ответа на вопрос, существует ли гиперкуб как отдельная физическая структура или лишь как виртуальная модель данных, различают системы MOLAP (Multidimensional OLAP) и ROLAP (Relational OLAP).

Инструменты добычи данных (Data Mining)

Предназначены для создания гипотез на основе существующих данных.

Извлечение новой информации из данных, содержащихся в хранилище данных, путем выявления взаимозависимости данных (корреляция, классификация и др.) и поиска скрытых закономерностей в данных.

Добыча данных предполагает использование статистических, оптимизационных и других специальных математических алгоритмов, и имеет целью получение дедуктивным путем новой информации, которая может оказаться полезной при принятии решений в предметной области.

Методы интеллектуального анализа данных (иад)

Два подхода:

  • пользователь сам выдвигает гипотезы относительно зависимостей между данными, система выполняет проверку достоверности гипотез.

  • зависимости между данными ищутся автоматически.

Процессы ИАД подразделяются на три группы:

  • поиск зависимостей (discovery),

  • прогнозирование (predictive modelling)

  • анализ аномалий (forensic analysis).

В ИАД используются следующие методы:

  • Нахождение ассоциаций, которые возникают как привязка значений к какому-нибудь одному событию.

  • Нахождение последовательностей, т.е. последовательных во времени событий.

  • Нахождение скрытых закономерностей по наборам данных в виде причинно-следственных связей между значениями определенных параметров исследуемого объекта (ситуации, процесса).

  • Оценка важности (влияния) параметров на события и ситуации.

  • Классифицирование (распознавание). Объекты при этом должны быть описаны значениями числовых признаков (симптомов, показателей, параметров). Нужно найти критерии, по которым можно было бы относить объект к той или иной классификационной категории.

  • Выявление кластеров. Кластеризация напоминает классификацию, с тем отличием, что критерии классификации не заданы. Кластеризация при исследовании данных позволяет обнаруживать данные, сгруппированные по каким-нибудь признакам, так что объекты одной группы "похожи" друг на друга, а объекты различных групп – "не похожи"..

  • Составление прогнозов событий и ситуаций

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]