- •Хранение информации
- •Системы оперативной обработки информации
- •Обобщенная структура системы oltp
- •Системы поддержки принятия решений
- •Хранилища данных
- •Обобщенная концептуальная схема хд детализированные и агрегированные данные
- •Метаданные
- •Управление жизненным циклом информации
- •Фиксированный контент
- •Извлечение данных (etl)
- •Обобщенная структура процесса etl Архитектуры хранилищ данных
- •Шесть уровней архитектуры хранилища данных
- •Консолидация с использованием витрин данных
- •Реляционные хранилища данных
- •Многомерные хранилища данных
- •Гибридные хранилища данных
- •Гибридное хд
- •Анализ данных введение в olap
- •Эволюция понимания места olap в архитектуре
- •Принцип организации многомерного куба
- •Измерения и факты в многомерном кубе
- •Сечения гиперкуба
- •Двумерный срез куба для одного факта
- •Двумерный срез куба для нескольких фактов
- •Двумерный срез куба с несколькими измерениями на одной оси
Фиксированный контент
По мере устаревания информации она все меньше подлежит изменению, становится «фиксированной», но к ней продолжают обращаться пользователи. Такие данные называют фиксированным контентом. Это документы, сообщения электронной почты, web-страницы.
Несмотря на то, что традиционные технологии (оптические диски, ленточные носители и магнитные диски) позволяют хранить контент, ни одна из них не отвечает уникальным требованиям по хранению фиксированного контента и доступа к нему.
Система хранения с контентной адресацией (CAS)
Архитектура предназначена для безопасного онлайнового хранения и извлечения фиксированного контента.
В отличие от доступа к данным файлового или блочного уровня, при котором используются имена файлов и физическое размещение хранимых данных, CAS хранит данные пользователя и их атрибуты в виде отдельных объектов.
Примеры:
Электронные документы (контракты, претензии, вложения электронных писем, финансовые аналитические таблицы)
Цифровые записи (документы, исторические справки, чеки, фотографии, исследования)
Мультимедийные данные (медицинские рентгенограммы, томограммы; видеофильмы, видеонаблюдение, голосовая почта, радио)
Архив представляет собой хранилище, в котором размещен фиксированный контент.
Архивы часто хранятся на устройствах однократной записи и многократного считывания (WORM), например CD. Однако традиционный процесс архивирования не оптимизирован для распознавания контента, поэтому один и тот же контент может быть заархивирован несколько раз. Кроме того ленты и оптические носители подвержены износу, что важно для мультимедийной информации. Частые изменения в технологии ведут к дополнительным затратам на преобразование медиафайлов в новые форматы.
В банковской деятельности, финансовой сфере, медицине есть специальные стандарты, касающиеся архивных данных (достоверность, целостность, доступность).
CAS – альтернатива ленточным и оптическим носителям.
Подлинность контента (достоверность достигается путем создания уникального адреса контента и его автоматической непрерывной проверки)
Целостность контента (неизменность – при изменении контента присваивается новый адрес, а не заменяется контент)
Независимость от местоположения (уникальный идентификатор контента для извлечения данных)
Единичное хранение (уникальная подпись каждого экземпляра объекта)
Контроль за сохранностью данных (объект и метаобъект, хранящий атрибуты объекта и нормативы (сроки хранения))
Защита на уровне записи и утилизации (резервная копия)
Независимость от технологии
Быстрый поиск записанных данных
Примеры:
Больница: Рентгенограммы (от 15 Мб до 1 Гб). Хранение локально 60-90 дней. Необходимо хранить минимум 7 лет.
Банк. Изображения чеков (25 Кб). 50-90 млн. чеков в месяц. В первые 60 дней 250000-45000 запросов для верификации. Далее 1 запрос на 10000 чеков. Размер архива до 100 Тб.
Реализация EMC Centera:
RAID (redundant array of independent disks — избыточный массивнезависимыхжёстких дисков) —массивиз нескольких дисков, управляемыхконтроллером, взаимосвязанных скоростными каналами и воспринимаемых внешней системой как единое целое. До 32 узлов. 1 узел более 1 Тб.Масштабируется для хранения до петабайт содержания
Архитектура Centera – избыточный массив независимых узлов (RAIN)
Требование – непрерывность бизнеса
Причины недоступности информации: запланированные простои (80%), незапланированные (20%), катастрофы (<1%)
CBMO - среднее время между отказами
CBB – среднее время восстановления
ДИ – время работоспособного состояния - часть периода времени, когда система готова к выполнению требуемых функций.
ДИ = CBMO / (CBMO+CBB), %
ДИ,% |
Время простоя, % |
Время простоя в год |
Время простоя в неделю |
98 |
2 |
7,3 дня |
3 ч. 22 мин. |
99 |
1 |
3,65 дня |
1 ч. 41 мин. |
99,8 |
0,2 |
17 ч. 31 мин. |
20 мин. 10 сек. |
99,9 |
0,1 |
8 ч. 45 мин. |
10 мин. 5 сек. |
99,99 |
0,01 |
52,5 мин. |
1 мин. |
99,999 |
0,001 |
5,25 мин. |
6 сек. |
99,9999 |
0,0001 |
31,5 сек |
0,6 сек. |
Средняя время простоя в час = средняя потеря производительности в час + средняя потеря дохода в час, где
Потеря производительности в час = (ФОТ в неделю)/(среднее кол-во рабочих часов в день)
Средняя потеря дохода в час = (общий доход организации в неделю) / (среднее кол-во часов в неделю, когда организация открыта)
Аварийное восстановление
Аварийный перезапуск (с помощью зеркальных копий)
Директивный срок восстановления (RPO). Момент времени, к которому система должна быть восстановлена после простоя. Если RPO – 6 час., то копия должна создаваться минимум 1 раз в 6 час. Если RPO – 0, то данные синхронно перенаправляются в удаленное местоположение.
Директивное время восстановления (RTO). Промежуток времени, за который системы, приложения и функции восстанавливаются после простоя. Разное оборудование при разном RTO. RTO 72 часа – восстановление с магнитных лент, RTO 4 часа – хранилище данных, RTO менее 1 часа – кластерные серверы с зеркалированием