Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет №1.docx
Скачиваний:
52
Добавлен:
10.05.2018
Размер:
619.57 Кб
Скачать

Министерство образования и науки рф Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский авиационный институт (национальный исследовательский университет)»

Факультет №3 «Системы управления, информатика и электроэнергетика»

Кафедра №316 «Системное моделирование и автоматизированное проектирование»

По дисциплине «Моделирование информационных систем»

Выполнил Вакурин А.О

Студент группы: 3-3ВТИ-4ДБ-009-14

Проверил: Прудников В.А

Москва 2018

Оглавле

Задание 1. Знакомство с GUI интерфейсом библиотеки data mining алгоритмов. 6

Задание 2. Выполнение анализа данных методами data mining. 19

Задание 3. Создание программ анализа данных с использованием алгоритмов data mining 30

Задание 4. Реализация алгоритмов построения unsupervised моделей 39

Будем использовать ARFF файл сегментации потребителей: 40

@relation 'travel' 40

@attribute sex {m, f} 40

@attribute age real 40

@attribute numb_journeys real 40

@attribute favor_country { Spain, Turkey, Poland, USA, France, Russia, Germany, Canada} 40

@attribute money_spent real 40

@data 40

f 33 3 Spain 10500 40

f 28 1 Turkey 645 40

m 16 1 Poland 433 40

m 34 2 USA 15230 40

f 52 12 Spain 12450 40

f 19 1 Spain 1426 40

f 45 5 Russia 4900 40

f 72 7 Germany 8560 40

f 23 4 Spain 17870 40

m 49 4 Spain 5400 40

PMML файл, построенный unsupervised алгоритмом 41

<?xml version="1.0" encoding="UTF-8"?> 41

<!DOCTYPE PMML PUBLIC "pmml20.dtd" "pmml20.dtd"> 41

<PMML version="2.0"> 41

<Header copyright="Copyright (c) 2003 prudsys AG" description="Xelopes mining model. See www.zsoft.ru or www.prudsys.com"> 41

<Application version="1.1" name="Xelopes" /> 41

<Timestamp>2018-03-25 03:57:50 MSD</Timestamp> 41

</Header> 41

<DataDictionary numberOfFields="5"> 41

<DataField displayName="sex" name="sex" isCyclic="0" optype="categorical"> 41

<Value displayValue="m" property="valid" value="m" /> 41

<Value displayValue="f" property="valid" value="f" /> 41

</DataField> 41

<DataField displayName="age" name="age" isCyclic="0" optype="continuous"> 41

<Interval leftMargin="-Infinity" rightMargin="Infinity" closure="openOpen" /> 41

</DataField> 41

<DataField displayName="numb_journeys" name="numb_journeys" isCyclic="0" optype="continuous"> 41

<Interval leftMargin="-Infinity" rightMargin="Infinity" closure="openOpen" /> 41

</DataField> 41

<DataField displayName="favor_country" name="favor_country" isCyclic="0" optype="categorical"> 41

<Value displayValue="Spain" property="valid" value="Spain" /> 41

<Value displayValue="Turkey" property="valid" value="Turkey" /> 41

<Value displayValue="Poland" property="valid" value="Poland" /> 42

<Value displayValue="USA" property="valid" value="USA" /> 42

<Value displayValue="France" property="valid" value="France" /> 42

<Value displayValue="Russia" property="valid" value="Russia" /> 42

<Value displayValue="Germany" property="valid" value="Germany" /> 42

<Value displayValue="Canada" property="valid" value="Canada" /> 42

</DataField> 42

<DataField displayName="money_spent" name="money_spent" isCyclic="0" optype="continuous"> 42

<Interval leftMargin="-Infinity" rightMargin="Infinity" closure="openOpen" /> 42

</DataField> 42

</DataDictionary> 42

<ClusteringModel modelName="clustering model" modelClass="centerBased" algorithmName="centerBasedClustering" functionName="clustering" numberOfClusters="3"> 42

<MiningSchema> 42

<MiningField missingValueTreatment="asMode" name="sex" missingValueReplacement="f" outliers="asMissingValues" usageType="active" /> 42

<MiningField missingValueTreatment="asMean" name="age" missingValueReplacement="37.1" outliers="asIs" usageType="active" /> 42

<MiningField missingValueTreatment="asMean" name="numb_journeys" missingValueReplacement="4.0" outliers="asIs" usageType="active" /> 42

<MiningField missingValueTreatment="asMode" name="favor_country" missingValueReplacement="Spain" outliers="asMissingValues" usageType="active" /> 42

<MiningField missingValueTreatment="asMean" name="money_spent" missingValueReplacement="7741.4" outliers="asIs" usageType="active" /> 42

</MiningSchema> 42

<ComparisonMeasure compareFunction="absDiff" kind="distance" minimum="0.0" maximum="0.0"> 43

<euclidean /> 43

</ComparisonMeasure> 43

<Cluster name="clust0"> 43

<Array type="real" n="5">0.75 35.5 5.25 0.75 14012.5</Array> 43

</Cluster> 43

<Cluster name="clust1"> 43

<Array type="real" n="5">0.6666666666666666 55.333333333333336 5.333333333333333 3.6666666666666665 6286.666666666667</Array> 43

</Cluster> 43

<Cluster name="clust2"> 43

<Array type="real" n="5">0.6666666666666666 21.0 1.0 1.0 834.6666666666666</Array> 43

</Cluster> 43

</ClusteringModel> 43

</PMML> 43

Задачи обобщения 45

Задачи поиска правил ассоциации 45

Задачи сокращения размерности 46

Задачи визуализации данных 46

Задание 5. Реализация алгоритмов построения supervised моделей. 52

Всего существует три алгоритма: Алгоритм ID3, CART, С4.5. 60

Вывод 62