Скачиваний:
52
Добавлен:
15.09.2014
Размер:
193.54 Кб
Скачать

Недостатки современных хранилищ данных

Несмотря на довольно большое количество уже созданных хранилищ данных и довольно большое число выполняемых приложений, на сегодняшний день имеются, по крайней мере, три существенные проблемы, связанные с хранилищами данных. Они состоят в управлении грязными данными, оптимальном выборе источника данных, а также в производительности и масштабируемости операций, основанных на сканировании.

Проблемы качества данных.

При создании хранилищ данных очень мало внимания уделяется очистке поступающей в него информации. Видимо считается, что чем больше размер хранилища, тем лучше. Это порочная практика и лучший способ превратить хранилище данных в свалку мусора. Очевидно, что результаты запросов, добычи данных или бизнес-анализа над хранилищем, содержащим большое число грязных данных, не могут считаться надежными и полезными. Возникает необходимость в очистке данных. Однако представленные сегодня на рынке средства очистки данных, конечно, не затрагивают все типы грязных данных, и, конечно, лишь немногие предприятия принимают на вооружение такие средства или процессы для предотвращения или обнаружения и очистки грязных данных, а также для отслеживания и проведения количественной оценки качества данных в хранилищах данных.

Проблемы выбора источников данных

Сегодня в хранилищах данных содержится множество данных, которые никогда не используются приложениями, выполняемыми над этими хранилищами данных, и эти ненужные данные являются одной из причин снижения эффективности выполнения запросов. Нужно обеспечить возможность регистрации полного набора запросов, генерируемых всеми приложениями, и использования таблиц и полей, фигурирующих в запросах, для тонкой настройки содержимого хранилищ данных.

Проблемы производительности и масштабируемости

В сегодняшних хранилищах данных для хранения данных и управления ими в значительной степени используются системы РБД. Однако возможности сегодняшних систем РБД не достаточны для обработки запросов, ориентированных на сканирование, таких как группировка записей и вычисление агрегатов, и операций перемещения файлов, которые преобладают на этапе преобразования данных хранилищ данных и этапе подготовки данных при добыче данных.

Преимущества хранилищ данных

Хранилище данных обеспечивает достижение следующих целей:

  • Простота доступа. Содержимое хранилища должно быть легко для понимания. Все сущности в хранилище должны быть названы так чтобы по названию было ясно, что это. Средства доступа должны быть легкими в использовании. Пользователь должен обладать возможностью выбирать данные в различных комбинациях как он сам захочет.

  • Согласованность информации. Информация, полученная из разных бизнес процессов, должна быть согласована. Если два показателя имеют одинаковые названия, то они должны обозначать одно и то же; и если два показателя названы по-разному, то они должны обозначать действительно разные показатели.

  • Устойчивость к изменениям. Существующие данные не должны становится некорректными, если бизнес-пользователь задает новые вопросы.

  • Защищенность. Только пользователи, имеющие соответствующие права, могут получать доступ к информации.

  • Поддержка принятия решений.

Соседние файлы в папке 208_bdzies