- •Основные понятия интеллектуального анализа данных
- •Постановка задачи
- •Подготовка данных
- •Просмотр данных
- •Построение моделей
- •Службы Microsoft sql Server 2005 Analysis Services
- •Исследование и проверка моделей
- •Развертывание и обновление моделей
- •Алгоритмы интеллектуального анализа данных
- •Просмотр алгоритмов
- •Применение алгоритмов
- •Алгоритм дерева принятия решений (Майкрософт)
- •Принцип работы алгоритма
- •Прогнозирование дискретных столбцов
- •Прогнозирование непрерывных столбцов
- •Использование алгоритма
-
Прогнозирование непрерывных столбцов
Когда алгоритм дерева принятия решений (Майкрософт) строит дерево, основанное на непрерывном прогнозируемом столбце, каждый узел содержит регрессионную формулу. Разбиение осуществляется в точке нелинейности в этой регрессионной формуле. Например, рассмотрим следующую диаграмму.
Диаграмма содержит данные, которые можно моделировать либо используя одиночную линию, либо используя две соединенные линии. Однако одиночная линия не обеспечит надлежащего представления данных. Вместо этого при использовании двух линий модель обеспечит гораздо более точное приближение данных. Точка соединения этих двух линий является точкой нелинейности и представляет собой точку, в которой разобьется узел в модели дерева решений. Например, узел, соответствующий точке нелинейности на предыдущем графике, может быть представлен следующей диаграммой. Эти два уравнения представляют регрессионные уравнения для этих двух линий.
-
Использование алгоритма
Модель дерева решений должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец.
В следующей таблице перечислены конкретные типы содержимого входных столбцов, типы содержимого прогнозируемых столбцов и флаги моделирования, поддерживаемые алгоритмом дерева принятия решений (Майкрософт).
Типы содержимого входных столбцов |
Continuous, Cyclical, Discrete, Discretized, Key, Table и Ordered |
Типы содержимого прогнозируемых столбцов |
Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные |
Флаги моделирования |
MODEL_EXISTENCE_ONLY, NOT NULL и REGRESSOR |
Все алгоритмы Майкрософт поддерживают общий набор функций. Однако алгоритм дерева принятия решений (Майкрософт) поддерживает дополнительные функции. Дополнительные сведения об использовании этих функций см. в разделе Ссылка на функцию расширений интеллектуального анализа данных.
Алгоритм дерева принятия решений (Майкрософт) поддерживает использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Алгоритм дерева принятия решений (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность получающейся в результате модели интеллектуального анализа данных.
Далее содержатся описания всех параметров.
MAXIMUM_INPUT_ATTRIBUTES
Определяет количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установите значение 0, чтобы отключить выбор компонентов. Значение по умолчанию равно 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Определяет количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установите значение 0, чтобы отключить выбор компонентов. Значение по умолчанию равно 255.
SCORE_METHOD
Определяет метод, используемый для вычисления коэффициента разбиения. Доступные параметры: Энтропия (1), априорный метод Байеса с K2 (2) или априорный эквивалент Дирихле метода Байеса (BDE) (3). Значение по умолчанию равно 3.
SPLIT_METHOD
Определяет метод, используемый для разбиения узла. Доступные параметры: двоичный (1), полный (2) или оба (3). Значение по умолчанию равно 3.
MINIMUM_SUPPORT
Определяет минимальное количество конечных вариантов, необходимых для формирования разбиения в дереве решений. Значение по умолчанию равно 10.
COMPLEXITY_PENALTY
Управляет ростом дерева решений. Низкое значение увеличивает количество разбиений, а высокое количество — уменьшает. Значение по умолчанию основано на количестве атрибутов для конкретной модели, как описано в следующем списке.
Для атрибутов с 1 по 9 значением по умолчанию является 0,5.
Для атрибутов с 10 до 99 значением по умолчанию является 0,9.
Для 100 или более атрибутов значением по умолчанию является 0,99.
FORCED_REGRESSOR
Приводит алгоритм к использованию указанных столбцов в качестве регрессоров, не обращая внимания на важность столбцов, вычисленную алгоритмом. Этот параметр используется только для деревьев решений, прогнозирующих непрерывный атрибут.