Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

RapidMiner_Practic_2

.doc
Скачиваний:
67
Добавлен:
14.02.2015
Размер:
3.66 Mб
Скачать

Практика 2

  1. Запустите RapidMiner ( .ехе файл на рабочем столе)

  2. На панели Repositories активируйте репозиторий, созданный вами на прошлой паре.

  3. Запустите из папки Proc процесс Practic_1_Tree

  4. Двойным щелчком откройте оператор Validation. Щелчком мыши сделаете активным модель Decision Tree. Обратите внимание на панель Parameters

С помощью пункт Criterion, можно определить используемый критерий для выбора атрибутов и численного распада. Возможны следующие варианты: gain_ratio, information_gain, gini_index, accuracy. По умолчанию указывается критерий "gain_ratio".

minimal size for split: минимальные количество узлов

minimal leaf size:- минимальное количество листьев

minimal gain: - минимальный прирост

maximal depth: - максимальная глубина

confidence: уровень доверия для пессимистического расчета погрешности обрезки.

number of prepruning – число альтернативных атрибутов, используется для уменьшения случаев раскола.

no pre pruning: без предварительной обрезки

no pruning: отключается обрезка дерева (используется для получения полной картины классификации)

  1. Ниже представлены значения, которые указываются по умолчанию.

  1. Измените исходные данные. Поменяйте Criterion с gain_ratio на information_gain. Запустите процесс, нажав на кнопку. Сохраните процесс в папке Proc, как Practic_1_tree2. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности (таблица представлена ниже), так же сохраните screenshot содержимого вкладки Tree, с сформулированными выводами относительно корневого атрибута.

Интервал точности

Значение

0-20

очень низкая

20-40

низкая

40-60

посредственная

60-80

высокая

80-100

очень высокая

  1. Измените исходные данные. Установите флажок на пункте no pre pruning и no pruning . таким образом, мы увеличиваем количество узлов отраженных в дереве. Запустите процесс, нажав на кнопку. Сохраните процесс в папке Proc, как Practic_1_tree3. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности, так же сохраните screenshot содержимого вкладки Tree, с сформулированными выводами относительно корневого атрибута.

  2. Рассмотрим следующих метод классификации. Метод k-ближайших соседей. Для создания нового процесса нажмите на кнопкуна панели инструментов. На первом этапе необходимо вывести на рабочее поле операторы Retrieve и Validation, создать связи между ними (ниже представлены пути к оператору)

  1. Необходимо загрузить данные в оператор Retrieve для этого нажав на в панели Parametes укажите путь к папке Data

  2. Двойным щелчком откройте оператор Validation. Данный оператор состоит из двух разделенных панелей. В первой панели исходные данные происходит обучение модели, во второй модель тестируется.

В первое поле необходимо перенести оператор для построения модели k-NN. Во второе Apply Model и Performance.

Apply Model- оператор применения построенного дерева к тестовой выборки

Performance- используется для визуализации результатов, результатом работы данного оператора является таблица в которой отражена точность определения того или иного класса.

  1. Установите связи между операторами согласно рисунку представленному ниже, запустите процесс, сохранив его в папке Proc, как Practic_1_k-NN

  1. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности.

  1. Двойным щелчком откройте оператор Validation. Щелчком мыши сделаете активным модель k-NN. Обратите внимание на панель Parameters

  1. На панели Parameters по умолчанию число k-соседей рано 1. Измените исходные данные на 3. То есть количество ближайших соседей будет рано трем. Запустите процесс, сохранив его в папке Proc, как Practic_1_k-NN2

  2. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности.

  3. Измените исходные данные на 6. То есть количество ближайших соседей будет рано шести. Запустите процесс, сохранив его в папке Proc, как Practic_1_k-NN3

  4. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности.

  5. Сравните выводы относительно точности при k=1, k=3, k=6. В каком случае точность выше. Отразите это в отчете.

  6. Рассмотрим следующих метод классификации. Метод Нейронная сеть. Для создания нового процесса нажмите на кнопкуна панели инструментов. На первом этапе необходимо вывести на рабочее поле операторы Retrieve и Validation, создать связи между ними (ниже представлены пути к оператору)

  1. Двойным щелчком откройте оператор Validation. Данный оператор состоит из двух разделенных панелей. В первой панели происходит обучение модели, поместите ниже представленные операторы

  1. Во второй панели исходные данные тестируется. Поместите ниже представленные операторы во второй панели.

  1. Сохраните в отчете screenshot содержимого оператора Validation. Запустите процесс, нажав на кнопку. Сохраните процесс в папке Proc, как Practic_1_Neur. Сохраните в отчете содержимое вкладки PerformansVector, с сформулированными выводами относительно точности. Перейдите с вкладки PerformansVector на ImprovedNeuralNet

  1. Сохраните в отчете screenshot содержимого вкладки а ImprovedNeuralNet с сформулированными выводами относительно точности.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]