Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет информатики и радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

стоэи.doc

Скачиваний:

187

Добавлен:

16.03.2016

Размер:

476.67 Кб

Скачать

☆

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 2828

40. Методы эффективной работы с большими данными для Data Mining.

Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа и алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным.

Способы повышения производительности:

Производительность при обработке больших объемов данных можно повысить различными способами:

-Оборудование. Многопроцессорные системы, ОЗУ большой емкости, RAID-массивы.

-Базы данных: тяжелые СУБД, разбиение на разделы, оптимальное индексирование…

-Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей…

-Исходная информация: репрезентативные выборки, сегментирование данных, группировка…

-Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели.

Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл.

Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов.

Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству.

41. Deductor – принципы работы и структура платформы. Возможности взаимодействия с другими системами.

В Deductorвключен полный набор инструментов для решения задач прогнозирования, начиная от сбора данных и кончая построением адаптивных моделей. Последовательность работы: выдвижение гипотез – сбор данных – очистка данных – трансформация данных – построение модели – прогноз.

В качестве места хранения данных для прогнозирования лучше всего использовать многомерное хранилище данных – DeductorWarehouse, включенное в состав системы.

Реальные данные очень часто содержать избыточную или некорректную информацию, которую желательно удалить или очистить до загрузки в хранилище.

DeductorStudioсодержит набор инструментов для решения задач очистки данных:

-редактирование аномалий;

-заполнение пропусков;

-очистка от шумов;

-сглаживание;

-поиск дубликатов и противоречий.

Трансформация данных является последним шагом перед построением прогностической модели. На этом шагу данные приводятся к виду, пригодному для использования различных способов построения моделей. В DeductorStudioреализованы следующие способы трансформации:

-преобразование к скользящему окну;

-квантование;

-группировка и сортировка;

-приведение типов.

При прогнозировании необходимо решать задачу регрессии, т.е. предсказать значение непрерывного выходного поля на основе нескольких входных показателей. В Studioвстроены следующие типы моделей:

-пользовательские;

-классические статистические модели;

-линейная регрессия;

-нейронные сети.

После построения прогностической модели можно получить, собственно, сам прогноз.

Состав платформы Deductor

-Warehouse– хранилище данных

-Studio– рабочее место аналитика

-Viewer– рабочее место конечного пользователя

-Server– аналитический сервер

-Client– клиент доступа к аналитическому серверу.

Dеductorлегко интегрируется в любое программное окружение, позволяет извлечь из накопленных в компании данных интересную и практически полезную информацию и трансформировать ее в конкурентные преимущества.

Deductorимеет встроенные механизмы работы со множеством источников и приемников данных, поддерживает практически все популярные форматы:

-txt,csv,xml,html

-офисные приложения

-драйвера прямого доступа ко множеству СУБД

-поддержка ODBCиADO

-1С:Предприятие

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 2828

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.03.201613.87 Mб41СТАНДАРТ ПРЕДПРИЯТИЯ.doc
#
17.09.20193.64 Mб23Статистика_теория.doc
#
28.07.2019641.54 Кб3Статистика_шпоры.doc
#
01.08.2019330.14 Кб7Стековая архитектура.docx
#
11.05.2015116.1 Кб14СТо 07-2011.docx
#
16.03.2016476.67 Кб187стоэи.doc
#
11.05.20157.15 Mб27СТП 2013.docx
#
16.03.20162.37 Mб134СТП БГУИР.pdf
#
17.11.201832.97 Кб9структурный подход.docx
#
26.11.2019290.14 Кб7структурный подход.docx
#
11.07.2019102.91 Кб4Студентам ОП 1.2.doc