Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
khranilischa_kr.docx
Скачиваний:
49
Добавлен:
15.03.2015
Размер:
730.88 Кб
Скачать

Хранилища данных

Со временем важность и значимость данных меняется. Значимость большей части создаваемых данных носит краткосрочный характер, и со временем такие данные обесцениваются. Частные лица хранят данные на различных устройствах (HDD, CD/DVD, Flash).

Предприятиям необходимо заниматься сохранением данных и обеспечивать возможность доступа к ним на протяжении длительного периода. При этом данные могут отличаться по степени важности и требовать особого подхода. Например, банки должны обеспечивать сохранность и точность данных клиентских счетов. Некоторые фирмы хранят данные миллионов клиентов. Для этих данных обеспечивается безопасность и целостность в течение длительного периода. Для этого необходимы специальные устройства хранения данных больших объемов с улучшенными характеристиками безопасности и способные хранить данные в течение долгого времени.

Устройства для хранения данных называются хранилищами. Тип используемого хранилища зависит от типа данных и их применения (DVD, HDD, внешние дисковые массивы и ленты, RAID-массивы и т.п.).

Классификация данных в зависимости от способа управления и хранения:

  1. Структурированные (20%)

  2. Неструктурированные (80%).

Структурированные данные организуют в ряды и колонки строго определенного формата, чтобы приложения могли извлекать данные и эффективно обрабатывать их. Обычно хранятся с применением СУБД.

К неструктурированным данным можно отнести данные клиента (на наклейках, электронных сообщениях, визитках, текстовых файлах). Поскольку данные неструктурированны, то их трудно извлекать посредством приложения, управляющего клиентскими базами.

Неструктурированные данные на предприятии: электронная почта, pdf-файлы, мгновенные сообщения в ICQ, документы, веб-страницы, счета, аудио/видео, чеки, руководства, формы, контракты, картинки и т.п. Они занимают много места и требуют больших усилий для управления ими.

На основе анализа данных предприятие извлекает информацию. Эффективный анализ данных не только приносит прибыль, но и создает новые возможности. Поэтому существует постоянная необходимость в их доступности и защите.

В зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Обобщенная концептуальная схема хд детализированные и агрегированные данные

Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым OLTP-системами. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.д. Это неделимые значения.

Многие задачи анализа требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые по дням, могут дать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить эти данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным.

Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными. Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.

Поскольку один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения, объем ХД возрастает, иногда существенно.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]