Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Деревья решений, ID3 (всё сразу).doc
Скачиваний:
19
Добавлен:
21.08.2019
Размер:
1.26 Mб
Скачать

Методы анализа данных

Интеллектуальные средства анализа данных используют следующие основные методы:

  • нейронные сети;

  • деревья решений;

  • индукцию правил;

Кроме этих методов существуют еще несколько дополнительных:

  • системы рассуждения на основе аналогичных случаев;

  • нечеткая логика;

  • генетические алгоритмы;

  • алгоритмы определения ассоциаций и последовательностей;

  • анализ с избирательным действием;

  • логическая регрессия;

  • эволюционное программирование;

  • визуализация данных.

Иногда применяется комбинация перечисленных методов.

Распространенными алгоритмами являются индукция ассоциативных правил, деревья решений, К-ближайшие соседи и генетические алгоритмы

Д е р е в ь я р е ш е н и й

Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.

Деревья решений (decision trees) являются самым распространенным в настоящее время подходом к выявлению и изображению логических закономерностей в данных. Видные представители этого подхода – процедуры CHAID (chi square automatic interaction detection), CART (classification and regression trees) и ID3 (Interactive Dichotomizer – интерактивный дихотомайзер).

Первые идеи создания деревьев решений восходят к работам Ховленда (Hoveland) и Ханта(Hunt) конца 50-х годов XX века. Однако, основополагающей работой, давшей импульс для развития этого направления, явилась книга Ханта (Hunt, E.B.), Мэрина (Marin J.) и Стоуна (Stone, P.J) «Experiments in Induction», увидевшая свет в 1966г.

Деревья решения являются одним из наиболее популярных подходов к решению задач data mining. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ... ТО...», имеющую вид дерева. Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра A больше x». Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный – то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Популярность подхода связана с наглядностью и понятностью. Но очень остро для деревьев решений стоит проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньшее и меньшее число записей данных – дерево дробит данные на большое количество частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров попадает в каждый такой частный случай, тем менее уверенной становится их классификация. Если построенное дерево слишком «кустистое» – состоит из неоправданно большого числа мелких веточек – оно не будет давать статистически обоснованных ответов. Как показывает практика, в большинстве систем, использующих деревья решений, эта проблема не находит удовлетворительного решения. Кроме того, общеизвестно, и это легко показать, что деревья решений дают полезные результаты только в случае независимых признаков. В противном случае они лишь создают иллюзию логического вывода.

Деревья решений лучше всего подходят для решения задач кластеризации и классификации. При кластеризации они делят целевое множество на сегменты со сходными характеристиками. Например, страховая компания хочет выяснить, какой признак лучше всего предсказывает необходимость выплаты страхового возмещения на крупную сумму. Алгоритм может выяснить, что признак, оказывающий наибольшее влияние, - это семейное положение; затем разделить целевое множество на два кластера - семейных и одиноких. Следующим важным критерием разделения может быть возрастная группа, тип автомобиля и место проживания. Чтобы сделать предсказание более точным, алгоритм может присвоить каждому разделению статистическую значимость. В результате этого процесса все клиенты будут разделены на категории. Алгоритмы дерева решений также могут использоваться для классификации, например, для изучения характеристик клиентов вновь приобретенной страховой компании и отнесения их к той или иной группе риска.

Область применения деревьев решений в настоящее время широка, но все задачи, решаемые этим аппаратом, могут быть объединены в следующие три класса:

Описание данных. Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.

Классификация. Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.

Регрессия. Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).