Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

источников недостающих данных используйте средства профилирования, визуализации, добычи

ииные методы науки о данных, позволяющие определять алгоритмы сбора и ввода данных сооб разно гипотетическим моделям.

Перед интеграцией обязательно проверяйте качество данных. Объем контролируемых пара метров качества может варьироваться от минимальной проверки процента заполнения полей до пропускания вводных данных через сложную последовательность аналитических проверок, по зволяющих профилировать и классифицировать вводные данные и даже выявлять логические связи между их элементами. Подобная оценка позволяет оценить, действительно ли анализируе мая выборка служит основой для проработки, и, если это так, перейти к проработке порядка хранения и доступа к данным (будь то мультипроцессорная параллельная архитектура, федера тивная или распределенная схема и т. п.). Подобная проработка ведется непременно с участием экспертов в предметных областях (включая самих статистиков, то есть специалистов по большим данным) и инженеров-разработчиков платформенных решений.

По результатам экспертизы вырабатываются ценные заключения относительно возможно сти интеграции результатов обработки больших данных с другими наборами данных, такими как основные данные или архивные копии данных в хранилище. Эти же результаты могут исполь зоваться для настройки параметров моделей обучения машинных алгоритмов, распознавания

ипроверки данных и т. п.

2.4 Выработка гипотез и выбор методов

Наука о данных сводится, по сути, к формулировке набора вопросов, ответы на которые помо гают получать осмысленную картину или выявлять статистически значимые закономерности в имеющихся данных. Технически такая задача решается построением статистических моделей для выявления корреляций между элементами и наборами данных, а также временных тен денций их изменения. Ответы на любой вопрос априори неоднозначны, поскольку зависят от выбора исходных данных для обработки в рамках модели. Например, для прогнозирования будущей стоимости портфеля финансовых активов нужно задавать показатели доходности входящих в него ценных бумаг. При этом в моделях зачастую фигурирует множество подоб ных переменных, и рекомендуемой практикой считается поиск детерминированных результа тов — иными словами, ожидаемые значения интересующей нас переменной рассчитываются при фиксировании остальных в качестве параметров на уровне с наибольшей вероятностью ожидаемых значений. Однако по мере накопления данных и развития модели значения таких параметров также должны переоцениваться и корректироваться методами машинного обуче ния. Работоспособность модели и результаты моделирования зависят от выбранного метода прогнозного или статистического анализа. Перед внедрением метод следует проверить на пред мет допустимости и правдоподобия получаемых результатов на различных наборах вводных, включая самые маловероятные.

Качество результатов моделирования зависит, во-первых, от качества вводных данных, а во-вторых — от качества самой модели. Хорошие модели часто сами выявляют имеющиеся

646

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

в обработанном массиве корреляции, учет которых помогает уточнить модель и результаты. На пример, метод кластеризации по k-средним позволяет для начала определить число кластеров, на которые следует разбить анализируемый массив данных с целью оптимизации дальнейшего анализа (см. главу 13).

2.5 Предварительная интеграция / Cогласование данных для анализа

Подготовка данных к анализу требует понимания содержания данных, выявления дублирующих друг друга или вторичных данных в различных источниках и приведения общих для различных наборов элементов данных к согласованному представлению, чтобы их можно было корректно использовать.

Во многих случаях объединение источников данных — скорее искусство, чем наука. На пример, предположим, что данные из первого источника поступают раз в сутки, а из второ го — в виде ежемесячной сводки. Следовательно, чтобы те и другие можно было согласованно анализировать, в рамках представлений науки о данных ежесуточные данные подлежат нако пительному обобщению в ежемесячные сводки, синхронизированные по срокам со сводками из второго источника.

Один из распространенных методов — модель интеграции данных через общий внешний ключ. Другой — сканирование и объединение данных через индексацию в СУБД; используется он, как правило, в рамках методов и алгоритмов сравнительного анализа наборов данных с це лью выявления сходств и определения ссылочных связей. Часто данные подвергают предвари тельной обработке на предмет определения экспертным путем наиболее подходящего для них метода анализа. Для определения групп выходных данных полезно использовать кластеризацию. Есть и другие методы выявления коэффициентов корреляции между различными элементами моделируемых данных, помогающие правильно определять структуру отображаемых на выходе результатов. Все подобные приемы должны применяться на начальных этапах с целью понять, как будут выглядеть публикуемые данные в случае выбора в пользу той или иной методологии моделирования и анализа.

Большинство решений требуют интеграции основных и справочных данных для интерпрета ции результатов анализа (см. главу 10).

2.6 Исследование данных с помощью моделей

2.6.1 Заполнение и настройка предиктивной модели

Чтобы отконфигурировать любую предиктивную модель, нужно для начала ввести все предусмотренные моделью начальные или исторические данные: например, о клиентах, рынке, продук тах или иных факторах, учитываемых в модели, за исключением пускового фактора. Все расчеты по формулам с использованием предварительно загруженных начальных данных обычно про изводят заранее, чтобы обеспечить максимально оперативное реагирование на запуск события. Например, по истории онлайновых покупок для каждого клиента предварительно моделируется

Большие данные и наука о данных

647

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

рекомендуемая корзина. При прогнозировании поведения розничных рынков исторические дан ные о ценах, динамике их изменения и сезонных колебаниях дополняются информацией о поку пательной способности, социальном и демографическом составе местного населения и метеоро логическими данными.

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

2.6.2 Обучение модели

Первые прогоны данных через модель используются для уточнения параметров, — в этом и со стоит смысл обучения модели. Впоследствии обучение повторяется всякий раз, когда нужно про верить обоснованность каких-либо новых гипотез или адекватность предлагаемых уточнений модели. Результатом обучения становится перенастройка модели. Пользоваться этим приемом нужно в меру. Злоупотребление обучением, особенно с использованием ограниченных наборов учебных данных, чревато переобучением модели на далекие от оптимальных результаты.

До получения устойчивых положительных результатов модель не передается в производ ственную среду. Нужно выявить все искажения и систематические погрешности в данных мо дели и скомпенсировать их изменением параметров или перетренировкой; последующая тонкая настройка может производиться уже в производственной среде, в том числе и с использованием алгоритмов самообучения, позволяющих модели постепенно корректировать параметры исход ной настройки по мере замещения первоначальных вводных данных фактическими данными, по лучаемыми по результатам взаимодействий с целевыми группами населения. Для оптимизации наборов настраиваемых параметров можно использовать формулу расчета вероятностей взаи мозависимых событий по теореме Байеса, причинно-следственную инверсию или вывод правил методом индукции. Наконец, можно разработать и составную модель данных для согласованного (так называемого «ансамблевого») обучения прогнозирующей модели, построенной по принципу сочетания сильных сторон, позаимствованных из нескольких более простых моделей.

Выявление отклонений или аномальных элементов данных (объектов, не укладывающихся в общую картину по тем или иным характеристикам) — критически важный компонент оценки модели. В случае волатильных наборов данных используйте дисперсный критерий расчета до пустимых стандартных отклонений от среднего и доверительного интервала. Оба метода можно спокойно применять и к результатам профилирования данных. В таком случае вполне может ока заться, что выпадающие из общего ряда результаты как раз и являются искомыми или целевыми, если ставится задача поиска альтернативных вариантов, то есть прямо противоположная выяв лению отклонений от сложившихся тенденций.

Для прогностического анализа используйте потоковые вводные данные для продолжения за полнения прогнозной модели и расчета текущего значения триггерного показателя, применяе мого для запуска сигнализации о наступлении события или реакции на него. Обработка потока данных в режиме, близком к реальному времени, может потребовать особого внимания к таким инженерно-техническим аспектам систем, как обеспечение сверхнизкого времени запаздывания или сверхскоростной обработки сигнала. В некоторых моделях способность фиксировать изме нение прогнозируемого значения за доли секунды — важнейшее условие пригодности решения,

648

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

а бывают и ситуации, требующие использования инновационных технологий, позволяющих ре гистрировать изменения чуть ли не со скоростью света.

Модели могут использовать всевозможные статистические функции и приемы, доступные из библиотек с открытыми исходными кодами, самой популярной из которых, вероятно, является «проект R». В бесплатной прикладной программной среде статистических вычислений проекта R все стандартные статистические функции реализованы через обращения к службам1. Дополни тельные настраиваемые функции можно разрабатывать с помощью языка программирования и открывать совместный доступ к ним всем нуждающимся в них программным средствам, плат формам и организациям.

По завершении создания, испытания, доработки и оценки прогностической модели организа ции остается решить, стоит ли разрабатывать и внедрять основанное на ней прикладное прогноз но-аналитическое решение. Средства операционной аналитики, работающие в режиме, близком к реальному времени, увы, часто бывают крайне ресурсоемкими и требуют столь существенных вложений в архитектуру, инфраструктуру и инженерное проектирование, что далеко не всегда

окупаются.

2.6.3 Оценка модели

Итак, модель разработана и реализована, данные загружены на платформу и готовы к анали зу, — тут-то и начинается, собственно, их изучение при помощи науки о данных. Поскольку на стадии проектирования модель прошла проверку и отладку на учебных наборах, с этого момен та от нее разумно ожидать практических результатов, позволяющих уточнять бизнес-требова ния и судить о целесообразности и направлении дальнейших усилий по управлению изучаемым набором данных или же, напротив, о его непригодности. Вполне вероятен и вариант развития событий, ведущий к возникновению новых гипотез, проверка которых потребует дополнитель ных наборов данных.

Ученые исследуют данные с помощью сложных запросов и всевозможных алгоритмов об работки с целью выявить в изучаемых наборах тенденции и закономерности. Частенько прихо дится перепробовать множество различных математических и статистических функций, прежде чем удается усмотреть в данных хоть какие-то структурные признаки (например, кластеры или всплески и спады, чередующиеся с достаточно выраженной периодичностью, и т. п.). На этом этапе исследователи данных часто выстраивают гипотезы на основе результатов серий последо вательных пакетных обработок, пока методом итерационных приближений не удается выявить достаточно закономерностей и корреляций для построения стройной модели связей между эле ментами данных.

Прикладная наука о данных имеет этическую составляющую, которую нужно учитывать и при моделировании данных. Модели могут давать непредсказуемые результаты, а могут и при вносить в картину мира искажения, обусловленные необъективностью или даже предвзятостью

1 Подробную информацию см. на веб-сайте проекта R: http://bit.ly/19WExR5

Большие данные и наука о данных

649