Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

лекция 3

.docx
Скачиваний:
22
Добавлен:
25.02.2015
Размер:
18.33 Кб
Скачать

Плюсы:

  • Поиск по базе данных осуществляется очень быстро

  • Базы данных деморализованы

  • Можно хранить функцию внутри ячейки (как в excel)

  • Хранение предагрегированные данные

Минусы:

  • Объем базы очень быстро растет

  • Огромное дублирование информации, следовательно, возникает потребность в большом дисковом пространстве

  • Внесение изменений в архитектуры крайне затруднительно, модель теряет гибкость и универсальность

  • Для каждого предприятия делается каждый раз новая модель, требуется создание нового продукта каждый раз

Такие базы данных применяются там где

  • информационный набор стабилен (не появляются новые типы информации

  • Нет необходимости хранить детальные данные, а можно хранить уже агрегированные данные

  • Объем данных не очень большой

Если есть возможность встраивать функции, то часть работы можно переложить на них

ROLAP - модели хранилища данных построены на реалиционных принципах. Для построения этих моделей используются обычные базы данных для хранения информации и дополнительные средства анализа (Microsoft Annalise service). Первый подход - построение модели типа "звезда". Преимущества: достаточно легкое построение, очень быстрые запросы, легкостью заполнения модели и перенос мости данных. Недостатки: возможно нарушение связи с предметной областью (неверно указать категорию товара).

Второй тип построения - модель "снежинка". Модель строится на основе "звезды", однако, допускается когда у таблицы, описывающей измерения есть собственные описания. В данном случае улучшается структурирование данных, появляется легкостью внесения данных. Подобная модель применяется, где количество данных значительно и вводится понятие регламентированное время ответа, то есть есть возможность прогнозирования время отклика системы

HOLAP Гибридные модели - модели, которые пытаются сочетать и реалиционный и не реалиционный подход, грубо говоря самостоятельное творчество организации. Яркий пример: мета-данные хранятся в виде xml, а данные хранятся реалиционный модели. Тогда в программе существует кусок кода который обращается и к xml и к базе данных.

Извлечение данных data mining - процесс получения информации из существующего массива данных (максимально детализированная информация). Data mining основан на методах и алгоритмах. Метод - правило, путь или способ для решения задач теоретического познавательного или управленческого характера. Метод не подразумевает, что вы использует готовую наработку. Метод - разовое решение, прямо сейчас. Алгоритм - точный набор действий, который гарантирует, что из набора данных получится искомый результат. Алгоритм многократно применяемая вещь, но не может использоваться при исследовательском подходе. Создание алгоритма - исследование, использование - нет.

Стадии развлечения данных:

1. Свободный поиск - выявление закономерностей. Закономерность - существенная повторяющаяся связь, определяющая этапы и формы процесса становления и развития различных явлений. Во время свободного поиска никто не задумывается почему оно так происходит. Свободный поиск определяет закономерности следующего типа: закономерность условной логики, закономерность ассоциативной логики, выявление дефакта. Поиск происходит простым переворот простым перебором сочетания факторов, человек занимающихся перебором определяет только критерий, то есть формируется задача "если это, то". Проверяется насколько соответствует данная задача. На стадии свободного поиска должна происходить валидация данных (закономерностей), то есть необходима проверка достоверность информации.

2. Прогностическое моделирование - использование выделенных закономерностей для предсказания неизвестных значений. На этом этапе мощно осуществлять два вида прогноза: прогноз неизвестных значений и прогноз процессов (развития процессов).

3. Анализ исключений - существуют ситуации, когда некоторый набор данных не попадает под закономерности. На этом этапе необходимо выявить то количество данных, которые не будут попадать под закономерности и понять, почему они не попадают в закономерность.

Классификация методов извлечения данных:

1. Методы, работающие с фактическими данными. Такие методы работают с огромным количеством данных, которые в принципе есть. Это кластерный анализ.

2. Методы, работающие с шаблонами - работает с более меньшим набором данных. Это логические методы и методы визуального анализа (графики, диаграммы).

Классификация

1. Статистические методы: регрессивный метод, и тд.

2. Кибернетический подход основан на перебором данных: генетические алгоритмы оптимизации данных, построение искусственных нейроновых сетей.

Задачи извлечения данных:

1. Классификация

2. Описание - выделение групп данных, имеющих общие признаки

3. Нахождение метода работы с данными

Соседние файлы в предмете Хранилища данных