Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4 / ИИиМО_ЛР4

.pdf
Скачиваний:
10
Добавлен:
19.01.2023
Размер:
29.16 Mб
Скачать

формирования конечных классов из начальных применяются специальные вычислительные процедуры, максимизирующие информационный индекс.

Для логистической регрессии формирование конечных классов - очень важный этап. Кратко перечислим причины этого:

категоризация позволяет смоделировать нелинейные зависимости в линейной модели;

категоризация помогает бороться с проблемой выбросов, экстремальных значений и редких категорий;

категоризация позволяет построить регрессионные модели, работающие с пропущенными значениями;

категоризация позволяет лучше понять взаимосвязи между переменными.

Данные процедуры реализует узел Конечные классы. Алгоритмы формирования конечных классов используют знания о выходной переменной. Таким образом, для корректной оценки качества классификационной модели, построенной с использованием предобработанных конечными классами столбцов, тестовое множество использовать нельзя. Поэтому перед узлом конечных классов поставим фильтр с условием Признак тестового множества = ложь (рис. 48). Далее рассмотрим настройку узла Конечные классы (рис. 49-61).

Рисунок 48 – Фильтрация входных данных

Рисунок 49 – Настройка узла Конечные классы (шаг 1)

Поле Отклик будет выходным, и событием в нем назначим уникальное значение TRUE. Поля Признак тестового множества, Клиент.Код и Дата актуальности объявим информационными, остальные - входными. Все остальные настройки изменять не будем. В итоге откроется интерактивный визуализатор Конечные классы с результатами автоматической категоризации входных полей. Справа расположен список столбцов с рассчитанной значимостью и информационным индексом. Двойным щелчком по заголовку Значимость отсортируем его (по убыванию степени значимости).

Рисунок 50 – Настройка узла Конечные классы (шаг 2)

Рисунок 51 – Настройка узла Конечные классы (шаг 3)

Рисунок 52 – Настройка узла Конечные классы: результаты (шаг 4) Для просмотра настроек всех столбцов необходимо нажать на кнопку

. Для входа в режим редактирования результатов формирования

конечных классов нажмем на кнопку . В этом режиме можно внести любые изменения: сдвинуть границы, объединить или разделить классы, задать другие параметры минимальной доли и максимального количества классов. В ряде случаев это требуется для повышения интерпретируемости конечных классов.

Рисунок 53 – Настройка узла Конечные классы: редактирование (шаг 5)

Рассмотрим столбец переменной "Возрастная группа". Два конечных класса, предложенных автоматическим алгоритмом, мало. Увеличим число конечных классов до 3-х путем разделения возрастных групп '40-60' и 'старше 60'. Получим диаграмму WoE-индексов (рис. 54). Наиболее склонны к отклику люди до 40 лет, а также клиенты с пропущенными значениями в поле возрастной группы. Наименее склонны клиенты старше 60 лет. Поле обладает высокой значимостью.

Рисунок 54 – Настройка узла Конечные классы: возрастная группа (шаг 6)

Класс пропусков был присоединен к мужскому полу. Наиболее склоны к отклику женщины. Ручные правки конечных классов не требуются. Поле обладает высокой значимостью (рис.55).

Рисунок 55 – Настройка узла Конечные классы: пол (шаг 7)

Рассмотрим столбец переменной "Сегмент достатка". Два конечных класса, предложенных автоматическим алгоритмом, слишком сильно огрубляют исходные данные. Увеличим число конечных классов до 3-х путем разделения двух последних начальных классов. Получим диаграмму WoE-индексов (рис. 56). Люди с высоким сегментом достатка 'от 80 т.р.' чаще откликаются на предложение. О клиентах с пропущенными значениями и о клиентах в сегменте 'от 20 до 80 т.р.' ничего определенного сказать нельзя: число событий и не-событий в этих группах примерно такое же, как во всей обучающей выборке в целом. Поле обладает высокой значимостью.

Рисунок 56 – Настройка узла Конечные классы: сегмент достатка (шаг 8)

Рассмотрим столбец переменной "Статус". Уникальные значения 'Золотой' и 'Платиновый' были объединены между собой. Данные клиенты меньше всего склонны к отклику. Ручные правки конечных классов не требуются. Поле обладает низкой значимостью (рис.57).

Рисунок 57 – Настройка узла Конечные классы: статус (шаг 9)

Рассмотрим столбец переменной "Счет". Исходное поле непрерывное, и аудит данных показал наличие выбросов и экстремальных значений в нем. Оптимальное квантование сформировало всего лишь два класса. Клиенты, потратившие больше ~7400 рублей, слабо реагируют на отклик. Ручные правки конечных классов не требуются. Поле обладает низкой значимостью

(рис.58).

Рисунок 58 – Настройка узла Конечные классы: счет (шаг 10) Рассмотрим столбец переменной "Длительность регистрации (мес.)".

Аналогично столбцу Счет, это поле также непрерывное, и аудит данных показал наличие выбросов и экстремальных значений в нем. Автоматический вариант следует признать неудовлетворительным (рис.59). Постоянные "развороты" (точки, в которых соседние конечные классы меняют знаки) привели к пилообразной форме диаграммы WoE-индексов. Эти "развороты" не имеют логического объяснения, вероятно, нужно сокращать число классов.

Сократим их до 3-х. Картина улучшилась: диаграмма WoE-индексов стала монотонно возрастающей. Клиенты, долго сотрудничающие с компанией, менее склонны к откликам. Поле обладает низкой значимостью

(рис.60).

Рисунок 59 – Автоматическая настройка Конечные классы: длительность регистрации (шаг 11)

Рисунок 60 – Настройка узла Конечные классы: длительность регистрации

(шаг 12)

Соседние файлы в папке 4