Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
стоэи.doc
Скачиваний:
187
Добавлен:
16.03.2016
Размер:
476.67 Кб
Скачать

40. Методы эффективной работы с большими данными для Data Mining.

Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа и алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным.

Способы повышения производительности:

Производительность при обработке больших объемов данных можно повысить различными способами:

-Оборудование. Многопроцессорные системы, ОЗУ большой емкости, RAID-массивы.

-Базы данных: тяжелые СУБД, разбиение на разделы, оптимальное индексирование…

-Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей…

-Исходная информация: репрезентативные выборки, сегментирование данных, группировка…

-Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели.

Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл.

Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов.

Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству.

41. Deductor – принципы работы и структура платформы. Возможности взаимодействия с другими системами.

В Deductorвключен полный набор инструментов для решения задач прогнозирования, начиная от сбора данных и кончая построением адаптивных моделей. Последовательность работы: выдвижение гипотез – сбор данных – очистка данных – трансформация данных – построение модели – прогноз.

В качестве места хранения данных для прогнозирования лучше всего использовать многомерное хранилище данных – DeductorWarehouse, включенное в состав системы.

Реальные данные очень часто содержать избыточную или некорректную информацию, которую желательно удалить или очистить до загрузки в хранилище.

DeductorStudioсодержит набор инструментов для решения задач очистки данных:

-редактирование аномалий;

-заполнение пропусков;

-очистка от шумов;

-сглаживание;

-поиск дубликатов и противоречий.

Трансформация данных является последним шагом перед построением прогностической модели. На этом шагу данные приводятся к виду, пригодному для использования различных способов построения моделей. В DeductorStudioреализованы следующие способы трансформации:

-преобразование к скользящему окну;

-квантование;

-группировка и сортировка;

-приведение типов.

При прогнозировании необходимо решать задачу регрессии, т.е. предсказать значение непрерывного выходного поля на основе нескольких входных показателей. В Studioвстроены следующие типы моделей:

-пользовательские;

-классические статистические модели;

-линейная регрессия;

-нейронные сети.

После построения прогностической модели можно получить, собственно, сам прогноз.

Состав платформы Deductor

-Warehouse– хранилище данных

-Studio– рабочее место аналитика

-Viewer– рабочее место конечного пользователя

-Server– аналитический сервер

-Client– клиент доступа к аналитическому серверу.

Dеductorлегко интегрируется в любое программное окружение, позволяет извлечь из накопленных в компании данных интересную и практически полезную информацию и трансформировать ее в конкурентные преимущества.

Deductorимеет встроенные механизмы работы со множеством источников и приемников данных, поддерживает практически все популярные форматы:

-txt,csv,xml,html

-офисные приложения

-драйвера прямого доступа ко множеству СУБД

-поддержка ODBCиADO

-1С:Предприятие

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]