- •Министерство образования и науки рф Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский авиационный институт (национальный исследовательский университет)»
- •Оглавле
- •Введение
- •Задание 1. Знакомство с gui интерфейсом библиотеки data mining алгоритмов.
- •Задание 2. Выполнение анализа данных методами data mining.
- •Задание 3. Создание программ анализа данных с использованием алгоритмовdatamining
- •Задание 4. Реализация алгоритмов построенияunsupervised моделей
- •Будем использовать arff файл сегментации потребителей:
- •Задачи обобщения
- •Задачи поиска правил ассоциации
- •Задачи сокращения размерности
- •Задачи визуализации данных
- •Задание 5. Реализация алгоритмов построения supervised моделей.
- •Всего существует три алгоритма: АлгоритмId3,cart, с4.5.
Министерство образования и науки рф Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский авиационный институт (национальный исследовательский университет)»
Факультет №3 «Системы управления, информатика и электроэнергетика»
Кафедра №316 «Системное моделирование и автоматизированное проектирование»
По дисциплине «Моделирование информационных систем»
Выполнил Вакурин А.О
Студент группы: 3-3ВТИ-4ДБ-009-14
Проверил: Прудников В.А
Москва 2018
Оглавле
Задание 1. Знакомство с GUI интерфейсом библиотеки data mining алгоритмов. 6
Задание 2. Выполнение анализа данных методами data mining. 19
Задание 3. Создание программ анализа данных с использованием алгоритмов data mining 30
Задание 4. Реализация алгоритмов построения unsupervised моделей 39
Будем использовать ARFF файл сегментации потребителей: 40
@relation 'travel' 40
@attribute sex {m, f} 40
@attribute age real 40
@attribute numb_journeys real 40
@attribute favor_country { Spain, Turkey, Poland, USA, France, Russia, Germany, Canada} 40
@attribute money_spent real 40
@data 40
f 33 3 Spain 10500 40
f 28 1 Turkey 645 40
m 16 1 Poland 433 40
m 34 2 USA 15230 40
f 52 12 Spain 12450 40
f 19 1 Spain 1426 40
f 45 5 Russia 4900 40
f 72 7 Germany 8560 40
f 23 4 Spain 17870 40
m 49 4 Spain 5400 40
PMML файл, построенный unsupervised алгоритмом 41
<?xml version="1.0" encoding="UTF-8"?> 41
<!DOCTYPE PMML PUBLIC "pmml20.dtd" "pmml20.dtd"> 41
<PMML version="2.0"> 41
<Header copyright="Copyright (c) 2003 prudsys AG" description="Xelopes mining model. See www.zsoft.ru or www.prudsys.com"> 41
<Application version="1.1" name="Xelopes" /> 41
<Timestamp>2018-03-25 03:57:50 MSD</Timestamp> 41
</Header> 41
<DataDictionary numberOfFields="5"> 41
<DataField displayName="sex" name="sex" isCyclic="0" optype="categorical"> 41
<Value displayValue="m" property="valid" value="m" /> 41
<Value displayValue="f" property="valid" value="f" /> 41
</DataField> 41
<DataField displayName="age" name="age" isCyclic="0" optype="continuous"> 41
<Interval leftMargin="-Infinity" rightMargin="Infinity" closure="openOpen" /> 41
</DataField> 41
<DataField displayName="numb_journeys" name="numb_journeys" isCyclic="0" optype="continuous"> 41
<Interval leftMargin="-Infinity" rightMargin="Infinity" closure="openOpen" /> 41
</DataField> 41
<DataField displayName="favor_country" name="favor_country" isCyclic="0" optype="categorical"> 41
<Value displayValue="Spain" property="valid" value="Spain" /> 41
<Value displayValue="Turkey" property="valid" value="Turkey" /> 41
<Value displayValue="Poland" property="valid" value="Poland" /> 42
<Value displayValue="USA" property="valid" value="USA" /> 42
<Value displayValue="France" property="valid" value="France" /> 42
<Value displayValue="Russia" property="valid" value="Russia" /> 42
<Value displayValue="Germany" property="valid" value="Germany" /> 42
<Value displayValue="Canada" property="valid" value="Canada" /> 42
</DataField> 42
<DataField displayName="money_spent" name="money_spent" isCyclic="0" optype="continuous"> 42
<Interval leftMargin="-Infinity" rightMargin="Infinity" closure="openOpen" /> 42
</DataField> 42
</DataDictionary> 42
<ClusteringModel modelName="clustering model" modelClass="centerBased" algorithmName="centerBasedClustering" functionName="clustering" numberOfClusters="3"> 42
<MiningSchema> 42
<MiningField missingValueTreatment="asMode" name="sex" missingValueReplacement="f" outliers="asMissingValues" usageType="active" /> 42
<MiningField missingValueTreatment="asMean" name="age" missingValueReplacement="37.1" outliers="asIs" usageType="active" /> 42
<MiningField missingValueTreatment="asMean" name="numb_journeys" missingValueReplacement="4.0" outliers="asIs" usageType="active" /> 42
<MiningField missingValueTreatment="asMode" name="favor_country" missingValueReplacement="Spain" outliers="asMissingValues" usageType="active" /> 42
<MiningField missingValueTreatment="asMean" name="money_spent" missingValueReplacement="7741.4" outliers="asIs" usageType="active" /> 42
</MiningSchema> 42
<ComparisonMeasure compareFunction="absDiff" kind="distance" minimum="0.0" maximum="0.0"> 43
<euclidean /> 43
</ComparisonMeasure> 43
<Cluster name="clust0"> 43
<Array type="real" n="5">0.75 35.5 5.25 0.75 14012.5</Array> 43
</Cluster> 43
<Cluster name="clust1"> 43
<Array type="real" n="5">0.6666666666666666 55.333333333333336 5.333333333333333 3.6666666666666665 6286.666666666667</Array> 43
</Cluster> 43
<Cluster name="clust2"> 43
<Array type="real" n="5">0.6666666666666666 21.0 1.0 1.0 834.6666666666666</Array> 43
</Cluster> 43
</ClusteringModel> 43
</PMML> 43
Задачи обобщения 45
Задачи поиска правил ассоциации 45
Задачи сокращения размерности 46
Задачи визуализации данных 46
Задание 5. Реализация алгоритмов построения supervised моделей. 52
Всего существует три алгоритма: Алгоритм ID3, CART, С4.5. 60
Вывод 62