Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИИиМО_ЛР4

.pdf
Скачиваний:
11
Добавлен:
19.01.2023
Размер:
29.16 Mб
Скачать

Рассмотрим столбец переменной "Округ". Значимость данного столбца по отношению к выходному отсутствует. Поэтому его можно исключить из построения модели прогнозирования вероятности отклика (рис.61).

Рисунок 61 – Настройка узла Конечные классы: Округ (шаг 13)

На этом формирование конечных классов окончено. Однако у нас осталось тестовое множество. Оно не принимало участие в формировании конечных классов, но данные записи требуется преобразовать к такому же виду, как и обучающее множество. Для этого воспользуемся узлом Скрипт. После чего слиянием добавим эти записи к обучающему множеству.

Для начала добавим узел Фильтрация к узлу Разбиение на множества

(рис. 62,63). Перед добавление узла Фильтрация добавим узел Настройка набора данных к Конечные классы. Установим следующие параметры набора данных (табл. 2). К узлу Фильтрация добавим узел Скрипт (рис. 64-69).

Таблица 2 – Параметры данных

Наименование

Тип данных

Вид данных

Назначение

данных

 

 

 

Клиент.Код

Целый

Непрерывный

Информационное

Дата актуальности

Дата/Время

Дискретный

Неиспользуемое

Пол

Строковый

Дискретный

Неиспользуемое

Возрастная группа

Строковый

Дискретный

Неиспользуемое

Статус

Строковый

Дискретный

Неиспользуемое

Длительность

Целый

Непрерывный

Неиспользуемое

регистрации (мес.)

 

 

 

Счет

Вещественный

Непрерывный

Неиспользуемое

Округ

Строковый

Дискретный

Неиспользуемое

Сегмент достатка

Строковый

Дискретный

Неиспользуемое

Отклик

Логический

Дискретный

Выходное

Признак тестового

Логический

Дискретный

Информационное

множества

 

 

 

Пол|Номер

Целый

Дискретный

Неиспользуемое

Пол|Метка

Строковый

Дискретный

Входное

Возрастная

Целый

Дискретный

Неиспользуемое

группа|Номер

 

 

 

Возрастная

Строковый

Дискретный

Входное

группа|Метка

 

 

 

Статус|Номер

Целый

Дискретный

Неиспользуемое

Статус|Метка

Строковый

Дискретный

Входное

Длительность

Целый

Дискретный

Неиспользуемое

регистрации

 

 

 

(мес.)|Номер

 

 

 

Длительность

Строковый

Дискретный

Входное

регистрации

 

 

 

(мес.)|Метка

 

 

 

Счет|Номер

Целый

Дискретный

Неиспользуемое

Счет|Метка

Строковый

Дискретный

Входное

Округ|Номер

Целый

Дискретный

Неиспользуемое

Округ|Метка

Строковый

Дискретный

Входное

Сегмент

Целый

Дискретный

Неиспользуемое

достатка|Номер

 

 

 

Сегмент

Строковый

Дискретный

Входное

достатка|Метка

 

 

 

Рисунок 62 – Фильтрация множества: признак тестового множества = истина

Рисунок 63 – Фильтрация множества: результат

Рисунок 64 – Настройка узла Скрипт (шаг 1)

Рисунок 65 – Настройка узла Скрипт (шаг 2)

Рисунок 66 – Настройка узла Скрипт (шаг 3)

Рисунок 67 – Настройка узла Скрипт (шаг 4)

Рисунок 68 – Настройка узла Скрипт (шаг 5)

Рисунок 69 – Настройка узла Скрипт: результат настройки узла Скрипт

К узлу Настройка набора данных добавим узел Слияние с другим узлом

(рис. 70-75).

Рисунок 70 – Настройка узла Слияние с узлом (шаг 1)

Рисунок 71 – Настройка узла Слияние с узлом (шаг 2)

Рисунок 72 – Настройка узла Слияние с узлом (шаг 3)

Рисунок 73 – Настройка узла Слияние с узлом (шаг 4)

Рисунок 74 – Настройка узла Слияние с узлом (шаг 5)

Рисунок 75 – Настройка узла Слияние с узлом: результат

После процедуры формирования конечных классов все готово для построения модели прогнозирования вероятности отклика предложение о приобретении продуктов новой линии. Для данных целей хорошо себя зарекомендовал такой инструмент логистическая регрессия (линейный классификатор). Применим данный инструмент к предобработанным данным

(рис. 76-84). Настройка назначения столбцов показана на рисунке 77. Следующий шаг связан с настройкой разбиения множеств: по столбцу Признак тестового множества (рис. 78). На следующем шаге предлагается выбрать метод отбора переменных в модель. Поскольку конечные классы и "отсекли" незначимые столбцы были отсечены, то необходимости в пошаговых процедурах нет, оставим метод "Полное включение" (рис.79). На шаге настройки параметров регрессионной модели оставим все без изменений. Событием является Отклик = TRUE, следовательно, модель будет прогнозировать вероятность отклика (рис.80). Следующий шаг — это калибровка будущей модели. Дело в том, что представленные в обучающей и тестовой выборке пропорции событий и не-событий не соответствуют истинным, предположительно наблюдаемым в генеральной совокупности (вся клиентская база). Это значит, что модель логистической регрессии, построенная на перевзвешенной выборке, будет генерировать псевдовероятности (в данном случае - завышать их). Поэтому их нужно скорректировать и делается это путем внесения поправки. В постановке задачи говорилось, что отклик на предложение составляет в среднем величину 3,7%. Именно ее (в виде числа 0,037) и внесем в поле Событие генерального множества (рис. 81). На последнем шаге мастера настроим параметры преобразования регрессионной модели в балльную скоринговую карту. Активируем флаг Округлять балл до целого значения (рис.82). Для отображения полученных результатов выберем следующие способы отображения: Коэффициенты регрессии, Отчет по регрессии, Качество классификации (рис.84).