Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по БД new.doc
Скачиваний:
11
Добавлен:
18.09.2019
Размер:
687.62 Кб
Скачать

Субд для хранилища данных

СУБД для хранилищ данных очень редко бывает источником проблем интеграции. Благодаря относительной зрелости таких программных продуктов, большинство реля­ционных баз данных интегрируется с другими типами программного обеспечение впол­не предсказуемым образом. Однако потенциальным источником проблем может послу­жить большой размер базы данных хранилища. При работе с подобной базой данных становится особенно важным обеспечение параллельности, а также таких традиционно важных параметров, как высокая производительность, масштабируемость, готовность и управляемость, что обязательно следует принимать во внимание при выборе СУБД.

Сначала мы рассмотрим основные требования, предъявляемые к СУБД для хра­нилища данных, а затем кратко обсудим, как можно организовать в хранилищах данных параллельное выполнение вычислений.

Требования к субд для хранилища данных

Специализированные требования к реляционной СУБД (РСУБД), предназначенной для хранилища данных, были опубликованы в документе White Paper (Red Brick Systems, 1996). Вот эти требования.

  • Высокая производительность загрузки данных.

  • Возможность обработки данных во время загрузки.

  • Наличие средств управления качеством данных.

  • Высокая производительность запросов.

  • Широкая масштабируемость по размеру (до терабайт).

  • Масштабируемость по количеству пользователей.

  • Возможность организации сети хранилищ данных.

  • Наличие средств администрирования хранилища.

  • Поддержка интегрированного многомерного анализа.

  • Расширенный набор функциональных средств запросов

Высокая производительность загрузки данных

В хранилищах данных требуется периодически выполнять загрузку порций но­вых данных, причем в ограниченных временных рамках. Производительность про­цесса загрузки в подобных случаях должна измеряться в сотнях миллионов строк или гигабайтах данных в час. Со стороны бизнес - задач не существует никаких огра­ничений в отношении максимально допустимого уровня производительности.

Возможность обработки данных во время загрузки

При загрузке в хранилище новых или обновленных данных обычно требуется вы­полнение нескольких последовательных этапов, включающих преобразование дан­ных, фильтрование, переформатирование, проверку целостности, физическое сохра­нение, индексирование и обновление метаданных. На практике каждый такой этап может выполняться по отдельности, однако в общем, процесс загрузки должен вы­глядеть как единая неразрывная процедура.

Наличие средств управления качеством данных

Для перехода к управлению на основе фактической информации требуются дан­ные высочайшего качества. В хранилище данных должна гарантироваться локальная непротиворечивость данных, глобальная непротиворечивость данных, а также цело­стность данных на уровне ссылок, даже несмотря на использование "грязных" ис­точников данных и громадные размеры базы данных. Хотя загрузка и подготовка данных - необходимые шаги, они все же не являются достаточными. Лишь способ­ность дать ответы на запросы конечных пользователей является действительной мерой успешности создания хранилища данных. Анализ утверждает, что, чем больше ответов было успешно предоставлено пользователям, тем сложнее и изощреннее ста­новятся очередные вводимые ими запросы.