Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
официальная методичка.doc
Скачиваний:
18
Добавлен:
20.11.2019
Размер:
2.54 Mб
Скачать

5.2.4 Изучение моделей целевой рассылки

Изучение модели дерева принятия решений

Алгоритм дерева принятия решений (Майкрософт) прогнозирует, какие столбцы влияют на решение о приобретении велосипеда на основании оставшихся столбцов в обучающем наборе.

На вкладке «Дерево принятия решений» можно изучать все древовидные модели, из которых состоит модель интеллектуального анализа данных.

Поскольку модель прямой почтовой рассылки для проекта этого учебного проекта содержит только один прогнозируемый атрибут, «Покупатель велосипеда», для просмотра доступно только одно дерево. При наличии нескольких деревьев нужное можно выбрать в поле «Дерево».

При просмотре модели «TM_Decision_Tree» в средстве просмотра дерева принятия решений обнаруживается, что возраст является единственным важным фактором в прогнозировании покупки велосипеда. Интересно, что при группировании клиентов по возрасту следующая ветвь дерева различна для каждого узла возраста. В результате исследования вкладки «Дерево принятия решений» можно заключить, что покупатели от 34 до 40 лет, имеющие один автомобиль или не имеющие автомобиля, в большой вероятностью купят велосипед и что неженатые, молодые клиенты, живущие в Тихоокеанском регионе и имеющие не более одного автомобиля, также с большой вероятностью купят велосипед.

Исследование модели на вкладке «Дерево принятия решений»

Перейдите на вкладку «Средство просмотра модели интеллектуального анализа данных (Mining Model Viewer)» в конструкторе интеллектуального анализа данных».

По умолчанию конструктор открывается на первой модели, добавленной в структуру, в данном случае — на модели «TM_Decision_Tree».

Для настройки размера отображения дерева воспользуйтесь кнопками со значком лупы.

По умолчанию в средстве просмотра деревьев (Майкрософт) отображаются только первые три уровня дерева. Если дерево содержит меньше трех уровней, показываются только существующие уровни. Увеличить число отображаемых уровней можно с помощью ползунка «Отображение уровня (Show Level)» или списка «Расширение по умолчанию (Default Expansion)».

Переместите ползунок «Отображение уровня (Show Level)» на значение 4.

Установите для параметра «Фон (Background)» значение 1.

Изменив параметр «Фон», можно быстро просмотреть число вхождений в каждый узел, имеющих целевое значение 1 для элемента [Покупатель велосипеда]. В этом конкретном сценарии следует помнить, что каждый вариант представляет покупателя. Значение 1 показывает, что покупатель ранее уже приобретал велосипед. Значение 0 показывает, что покупатель не приобретал велосипеда. Чем темнее заливка узла, тем больший процент вариантов с нужным целевым значением он содержит.

Поместите курсор над узлом с заголовком «Все (All)». В подсказке отобразятся следующие сведения.

Общее число вариантов

Число вариантов покупки товара, не являющегося велосипедом

Число вариантов покупки велосипеда

Число вариантов с отсутствующими значениями для элемента [Покупатель велосипеда]

Можно также поместить курсор над любым узлом в дереве и просмотреть условие, необходимое для достижения этого узла из узла, стоящего перед ним. Эти сведения можно также просмотреть в окне «Обозначения интеллектуального анализа данных (Mining legend)».

Щелкните узел для категории «Возраст (Age) >=34 и < 41». Отобразится гистограмма в виде тонкой горизонтальной полоски, пересекающей узел. Она показывает распределение клиентов в этом диапазоне возраста, которые раньше покупали (розовый цвет) и не покупали (синий цвет) велосипед. В средстве просмотра показано, что клиенты в возрасте от 34 до 40 лет с одним автомобилем или не имеющие автомобиля, вероятно, купят велосипед. Сделав еще один шаг, мы видим, что вероятность покупки велосипеда увеличивается, если возраст клиента — от 38 до 40 лет.

Поскольку при создании структуры и модели была включена детализация, из вариантов модели и структуры интеллектуального анализа данных можно получить подробные сведения, в том числе для столбцов, не включенных в модель интеллектуального анализа данных (например, столбцов emailAddress, FirstName).

Щелкните правой кнопкой мыши узел и выберите «Детализация (Drill Through)», затем «Только столбцы модели (Model Columns only)».

Сведения для каждого обучающего варианта отображаются в формате электронной таблицы. Эти сведения получены из представления vTargetMail, выбранного как таблица вариантов при построении структуры интеллектуального анализа данных.

Щелкните правой кнопкой мыши узел и выберите «Детализация (Drill Through)», затем «Столбцы модели и структуры (Model and structure columns)».

Отобразится та же электронная таблица со столбцами структуры, присоединенными в конец таблицы.

На вкладке «Сеть зависимостей (Dependency network)» отображаются связи между атрибутами, образующими прогнозную часть модели интеллектуального анализа данных. Средство просмотра «Сеть зависимостей» еще более явно подтверждает предположение, что возраст и регион являются важными факторами в прогнозировании покупки велосипеда.

Щелкните узел «Покупатель велосипеда (Bike buyer)», чтобы определить его зависимости.

Центральный узел сети зависимостей «Покупатель велосипеда (Bike buyer)», отражает прогнозируемый атрибут модели интеллектуального анализа данных. Розовая заливка показывает, что на покупку велосипеда влияют все атрибуты.

Переместите ползунок «Все связи (All links)», чтобы увидеть атрибут, оказывающий наибольшее влияние.

По мере перемещения ползунка вниз остаются только атрибуты с наибольшим влиянием на столбец [Покупатель велосипеда]. Перемещая ползунок, можно узнать, что возраст и регион являются факторами, оказывающими самое сильное влияние на принятие решения о покупке велосипеда.

Изучение модели кластеризации

Алгоритм кластеризации (Майкрософт) выполняет группировку вариантов в кластеры, которые имеют одинаковые характеристики. Такие группирования полезно использовать для просмотра данных, выявления в них аномалий и создания прогнозов.

Вкладка «Схема кластеров (Cluster diagram)»

Вкладка «Схема кластеров» содержит все кластеры, которые имеются в модели интеллектуального анализа данных. Линии между кластерами показывают «близость», а их заливка отражает степень схожести кластеров. Цвет каждого из кластеров указывает на частоту появления переменной и состояние в кластере.

Используйте список «Модель интеллектуального анализа данных (Mining Model)», расположенный вверху окна «Средство просмотра моделей интеллектуального анализа данных (Mining Model Viewer)» для перехода к модели «TM_Clustering».

В списке «Средство просмотра» выберите «Средство просмотра кластеров (Майкрософт)».

В поле «Переменная заливки (Shading Variable)» выберите «Покупатель велосипеда (Bike buyer)».

По умолчанию используется переменная «Заполнение», однако в роли такой переменной может выступать любой атрибут модели, что позволяет выяснить, какие кластеры содержат члены с требуемыми атрибутами.

Выберите 1 в поле «Состояние (State)», чтобы изучить те варианты, когда состоялась покупка велосипеда.

Обозначение «Плотность (Density)» описывает плотность пар состояний атрибутов, выбранных в полях «Переменная заливки» и «Состояние». В данном примере это указывает, что кластер с самой темной заливкой имеет наибольший процент покупателей велосипедов.

Наведите указатель мыши на кластер с самой темной заливкой.

Во всплывающей подсказке отобразится процент вариантов, у которых атрибут «Bike Buyer = 1».

Выберите кластер с максимальной плотностью, щелкните его правой кнопкой мыши, выберите пункт «Переименовать кластер (Rename Cluster)» и введите «Много покупателей велосипедов» для последующей идентификации. Нажмите кнопку «ОК».

Найдите кластер с самой светлой заливкой (и с наименьшей плотностью). Щелкните данный кластер правой кнопкой мыши, выберите команду «Переименовать кластер (Rename cluster) и введите «Мало покупателей велосипедов. Нажмите кнопку «ОК».

Щелкните кластер Много покупателей велосипедов» и перетащите его в область панели, в которой явно видны его соединения с другими кластерами.

При выборе кластера выделяются линии, соединяющие его с другими кластерами, что позволяет легко определить связи данного кластера. Если кластер не выделен, по цвету линий можно определить, насколько тесная связь между кластерами схемы. Светлая заливка или отсутствие заливки означает, что кластеры не очень схожи.

С помощью ползунка, расположенного слева от сети, можно отфильтровывать слабые связи и находить кластеры с наиболее близкими связями. Отделу маркетинга компании Adventure Works Cycles может потребоваться объединить похожие кластеры при определении наилучшего способа прямой почтовой рассылки.

Вкладка «Профили кластера»

Вкладка «Профили кластера (Cluster profiles)» содержит общие сведения о модели «TM_Clustering». На вкладке «Профили кластера (Cluster profiles)» есть столбец для каждого кластера модели. В первом столбце перечислены атрибуты, связанные по крайней мере с одним кластером. В оставшейся области средства просмотра отображается распределение состояний атрибута для каждого из кластеров. Распределение дискретной переменной показано цветным столбцом, при этом максимальное количество видимых столбцов задается в списке Столбцы гистограммы (Histogram bars)». Непрерывные атрибуты отображаются в ромбовидной диаграмме, отражающей среднее и стандартное отклонение в каждом из кластеров.

Изучение модели на вкладке «Профили кластера»

Установите значение столбцов «Гистограммы (Histogram bars)» равное 5.

В нашей модели значение 5 — это максимальное количество состояний для любой одной переменной.

Перенесите в сторону «Обозначения интеллектуального анализа данных (Mining legend)», если они препятствуют просмотру «Профилей атрибутов (Attribute profiles)».

Выберите столбец «Много покупателей велосипедов» и перетащите его таким образом, чтобы он оказался справа от столбца «Заполнение».

Выберите столбец «Мало покупателей велосипедов» и перетащите его таким образом, чтобы он оказался справа от столбца «Много покупателей велосипедов».

Щелкните столбец «Много покупателей велосипедов».

В столбце «Переменные (Variables)» установлена сортировка по важности для данного кластера. Просмотрите столбец и проанализируйте характеристики кластера «Много покупателей велосипедов». Например, вероятно, что они живут недалеко от работы.

Дважды щелкните ячейку «Возраст (Age)» в столбце «Много покупателей велосипедов».

В области «Обозначения интеллектуального анализа данных (Mining legend)» появится более детальное представление, где можно увидеть диапазон возрастной группы, а также средний возраст покупателей.

Щелкните правой кнопкой мыши столбец «Мало покупателей велосипедов и выберите пункт «Скрыть столбец (Hide Column)».

Вкладка «Характеристики кластера»

На вкладке «Характеристики кластера (Cluster characteristics) можно просмотреть подробные сведения о кластере. Вместо сравнения характеристик всех кластеров (как на вкладке «Профили кластера») кластеры можно анализировать по одному. Например, если выбрать «Много покупателей велосипедов» из списка «Кластер (Cluster)», можно просмотреть характеристики покупателей данного кластера. Хотя данное представление отличается от средства просмотра профилей кластера, результаты остаются такими же.

Вкладка «Сравнения кластеров (Cluster Discrimination)»

На вкладке «Сравнения кластеров (Cluster Discrimination)» можно выявить, какие характеристики отличают кластеры друг от друга. Если выбрать два кластера — один из списка «Кластер 1 (Cluster 1)» и один из списка «Кластер (Cluster )2», — то средство просмотра вычислит разницу между кластерами и отобразит список атрибутов, по которым эти кластеры различаются больше всего.

Изучение модели на вкладке «Сравнения кластеров»

В поле «Кластер 1 (Cluster 1)» выберите «Много покупателей велосипедов».

В поле «Кластер 2 (Cluster 2)» выберите «Мало покупателей велосипедов».

Для сортировки по алфавиту щелкните на заголовке столбца «Переменные (Variables) ».

Некоторые из более существенных различий между покупателями в кластерах «Мало покупателей велосипедов» и «Много покупателей велосипедов» включают возраст, владение автомобилем, количество детей и регион.

Изучение модели упрощенного алгоритма Байеса

Упрощенный алгоритм Байеса (Майкрософт) предоставляет несколько способов отображения взаимосвязи между покупкой велосипедов и входными атрибутами.

Сеть зависимостей (Dependency Network)

Выберите модель «TM_NaiveBayes» в списке «Модель интеллектуального анализа данных (Mining Model)» в верхней части вкладки «Средство просмотра моделей интеллектуального анализа данных (Mining Model Viewer)».

Используйте список «Средство просмотра (Viewer), чтобы переключиться в «Средство просмотра упрощенного алгоритма Байеса (Майкрософт) (Microsoft Generic Content Tree Viewer)».

Щелкните узел «Покупатель велосипеда (Bike buyer)» для определения его зависимостей.

Розовая заливка указывает на то, что все атрибуты влияют на покупку велосипедов.

Определите с помощью ползунка атрибут, оказывающий наибольшее влияние.

По мере перемещения ползунка вниз остаются только атрибуты, оказывающие наибольшее влияние на столбец [Покупатель велосипеда]. Перемещая ползунок, можно узнать, что несколькими атрибутами, оказывающими наибольшее влияние, являются число имеющихся в распоряжении автомобилей, расстояние до работы и общее количество детей.

Профили атрибутов (Attribute Profiles)

На вкладке «Профили атрибутов (Attribute profiles)» показано, как различные состояния входных атрибутов влияют на результат прогнозируемого атрибута.

Убедитесь, что в поле «Прогнозируемый» выбрано «Покупатель велосипеда».

Если «Обозначения интеллектуального анализа данных (Mining legend) закрывает собой «Профили атрибутов (Attribute profiles)», переместите его в другое место.

В поле «Столбцы гистограммы (Histogram bars)» выберите значение 5.

В рассматриваемой модели значение 5 — это максимальное количество состояний для любой переменной.

Атрибуты, влияющие на состояние данного прогнозируемого атрибута, перечисляются вместе со значениями каждого состояния входных атрибутов и их распределениями по каждому состоянию прогнозируемого атрибута.

В столбце «Атрибуты (Attributes)» найдите пункт «Число машин во владении». Обратите внимание на различия в гистограммах для покупателей велосипедов (столбец с меткой 1) и тех, кто не покупает (столбец с меткой 0). Человек, у которого есть один автомобиль или вообще нет машины, является наиболее вероятным покупателем велосипеда.

Дважды щелкните ячейку «Число машин во владении» в столбце покупателя велосипеда (столбец с меткой 1).

«Обозначения интеллектуального анализа данных (mining legend)» отображает более подробное представление.

Характеристики атрибута (Attribute Characteristics)

На вкладке «Характеристики атрибута» можно выбрать атрибут и значение, чтобы узнать частоту появления значений других атрибутов во вхождениях выбранного значения.

Убедитесь, что в списке «Атрибут (Attribute)» выбрано «Покупатель велосипеда (bike buyer)».

В поле «Значение (Value)» выберите 1.

В средстве просмотра будут показано, что заказчики, которые не имеют проживающих с ними детей, работают недалеко от дома и живут в Североамериканском регионе, являются более вероятными покупателями велосипеда.

Сравнение атрибутов (Attribute Discrimination)

На вкладке «Сравнение атрибутов» можно изучать связь между двумя дискретными значениями покупателей велосипеда и другими значениями атрибутов. Поскольку в модели «TM_NaiveBayes» предусмотрено только два состояния, 1 и 0, не требуется вносить изменения в средство просмотра.

В средстве просмотра показано, что велосипеды, как правило, покупают люди, не имеющие в распоряжении машин, и наоборот, люди, имеющие две машины, большей частью велосипеды не покупают.