Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уральский государственный университет физической культуры

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf

Скачиваний:

134

Добавлен:

14.03.2016

Размер:

5.88 Mб

Скачать

☆

1 / 161 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ БРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЗИЧЕСКОЙ КУЛЬТУРЫ»

КАФЕДРА МАТЕМАТИКИ, ФИЗИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

С. Т. Касюк

ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ

И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

Учебно-методическое пособие

Рекомендовано методическим советом УралГУФК

Челябинск Уральская Академия

2015

УДК 796:311(075.8)

ББК 75:60.6я73

K289

Рекомендовано к изданию методическим советом УралГУФК Протокол № __ от __.__.2015 г.

Рецензенты:

Доцент кафедры математики Челябинской государственной агроинженерной академии, к.п.н. О. Е. Акулич

Доцент кафедры математики, физики и информационных технологий УралГУФК, к.п.н. В. М. Ларионов

Касюк, С. Т.

Первичный, кластерный, регрессионный и дискриминантный анализ данных спортивной медицины на компьютере: учеб.-метод. пособие / С. Т. Касюк. – Челябинск : Уральская Академия, 2015. – 160 с.

В учебно-методическом пособии даны теоретические основы проведения первичного, кластерного, регрессионного и дискриминантного анализа данных. Приведены пошаговые примеры анализа данных спортивной медицины в пакете STATISTICA 10. Даны варианты заданий для самостоятельного выполнения.

Учебно-методическое пособие предназначено для студентов факультета оздоровительных технологий и спортивной медицины УралГУФК, изучающих компьютерную обработку данных экспериментальных исследований.

УДК 796:311(075.8)

ББК 75:60.6я73

©УралГУФК, 2015 ©Касюк С. Т., 2015

	СОДЕРЖАНИЕ
ВВЕДЕНИЕ...................................................................................................		6
1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ......................................................		8
1.1	Интерфейс пакета STATISTICA 10........................................................	8
1.2	Аналитические модули STATISTICA 10...............................................	10
1.3	Создание файла данных в пакете STATISTICA 10..............................	11
1.4	Вычисление описательных статистик данных в пакете
STATISTICA 10........................................................................................................		18
1.5	Нормальное распределение случайной величины................................	23
1.6 Проверка характера распределения переменной на нормальность...........		26
1.7	Варианты заданий по вычислению описательных статистик
выборок в пакете STATISTICA 10.........................................................................		33
2 КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ...................................................		36
2.1	Постановка задачи кластерного анализа...............................................	36
2.2	Меры расстояний в кластерном анализе...............................................	37
2.3	Этапы и алгоритмы кластерного анализа..............................................	38
2.4	Алгоритм кластеризации k-средних.......................................................	40
2.5	Пример проведения кластерного анализа алгоритмом k-средних
в пакетe STATISTICA 10.........................................................................................		41
2.6	Алгоритм древовидной кластеризации..................................................	50
2.7	Пример проведения кластерного анализа алгоритмом
древовидной кластеризации в пакетe STATISTICA 10........................................		52
2.8	Проблемы алгоритмов кластеризации...................................................	58
	3

2.9	Варианты заданий по кластерному анализу в пакете
STATISTICA 10........................................................................................................		59
3 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ...........................................		65
3.1	Постановка задачи регрессионного анализа.........................................	65
3.2	Линейная регрессионная модель............................................................	68
3.3	Оценка соответствия простой линейной регрессии реальным
данным......................................................................................................................		69
3.4	Проверка значимости регрессионной модели и коэффициентов
уравнения регрессии................................................................................................		74
3.5 Значение остатков при изучении результатов регрессионного
анализа......................................................................................................................		75
3.6	Пример проведения регрессионного анализа в пакетe
STATISTICA 10........................................................................................................		76
3.7	Методы отбора переменных в регрессионные модели........................	84
3.8	Пример проведения множественного регрессионного анализа
в пакетe STATISTICA 10.........................................................................................		86
3.9	Ограничения применимости регрессионных моделей.........................	96
3.10 Варианты заданий для проведения регрессионного анализа
в пакете STATISTICA 10.........................................................................................		97
3.11 Варианты заданий для проведения множественного
регрессионного анализа в пакете STATISTICA 10...............................................		102
4 ДИСКРИМАНАНТНЫЙ АНАЛИЗ ДАННЫХ...................................		108
4.1	Постановка задачи дискриминантного анализа....................................	108
4.2	Алгоритм проверки возможности проведения дискриминантного
анализа......................................................................................................................		109
4.3	Основные методы проведения дискриминантного анализа................	109
	4

4.4 Пример проведения дискриминантного анализа в пакете
STATISTICA 10.…...................................................................................................	112
4.5 Варианты заданий для проведения дискриминантного анализа
в пакете STATISTICA 10.........................................................................................	135
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА......................................................	141
ПРИЛОЖЕНИЯ...........................................................................................	142
А Интерфейс пакета STATISTICA 10..........................................................	143
Б Критерий Шапиро-Уилка; p-квантили статистики критерия W
для p = α = 0,01 и 0,05..............................................................................................	152
В Критические значения для наибольшего отклонения эмпирического
распределения от теоретического (критерий Колмогорова)...............................	153
Г Таблица значений χ2 распределения Пирсона.........................................	154
Д Критические точки F-pacпpeделения Фишера, α = 0,05 и 0,01.............	155
Е Критические точки распределения Стьюдента.......................................	157
Ж Список вопросов к зачету по компьютерной обработке данных
экспериментальных исследований.........................................................................	158

ВВЕДЕНИЕ

Научные исследования в сфере спортивной медицины и оздоровительных технологий приводят к накоплению большого количества данных о воздействии реабилитационных, терапевтических и болезнетворных факторов на организм человека, которые требуют количественной оценки и интерпретации. Обработка экспериментальных данных в настоящее время может осуществляться на компьютере в статистических пакетах. Поэтому необходимо на уровне высшего профессионального образования сформировать компетентность как в областях современных методов статистического анализа данных, так и использования соответствующих прикладных программ.

Целью данного учебно-методического пособия является обучение студентов факультета оздоровительных технологий и спортивной медицины УралГУФК компьютерной обработке данных экспериментальных исследований в пакете

STATISTICA 10.

Материал учебно-методического пособия разбит на разделы и представлен в следующем виде:

1)первичный анализ данных – интерфейс пакета STATISTICA 10, вычисление описательных статистик, проверка нормальности распределения, построение гистограмм;

2)кластерный анализ – задача кластерного анализа, меры расстояний, выбор числа кластеров, алгоритм k-средние, алгоритм древовидной кластеризации, проблемы алгоритмов кластеризации;

3)регрессионный анализ – задача регрессионного анализа, метод наименьших квадратов, основные статистические показатели регрессионного анализа, проверка значимости регрессионной модели и коэффициентов уравнения регрессии, анализ остатков, методы отбора переменных в регрессионные модели, ограничения регрессионных моделей;

4)дискриминантный анализ – задача дискриминантного анализа, проверка возможности проведения дискриминантного анализа, линейный дискриминационный анализ Фишера, канонический дискриминационый анализ, основные статистические показатели дискриминантного анализа.

В учебно-методическом пособии приведены примеры пошагового проведения первичного, кластерного, регрессионного и дискриминантного анализа данных в пакете STATISTICA 10, а также даны варианты заданий для самостоятельного выполнения.

При работе над данным учебно-методическим пособием автор стремился использовать только качественные источники и материалы, приведенные в списке литературы. В качестве теоретической литературы по проведению первичного, кластерного, регрессионного и дискриминантного анализа данных спортивной медицины рекомендуются книги по статистической обработке данных клинических

исследований, а именно «Медико-биологическая статистика» С. Гланца, «Медицинская статистика» К. Жижина, «Наглядная статистика» А. Петри, Э. Сэбина, «Математическая статистика в медико-биологических исследованиях с применением пакета Statistica» Н.В. Трухачевой. В качестве литературы по работе с пакетом STATISTICA 10 рекомендуются книги В.П Боровикова, например «Популярное введение в современный анализ данных в системе STATISTICA».

Изучение компьютерной обработки данных экспериментальных исследований является сложной компонентой обучения, требующей от студентов целеустремленности, высокой трудоспособности и дисциплины. Автор надеется, что данное учебно-методическое пособие окажет студентам реальную помощь.

Список вопросов к зачету по компьютерной обработке данных экспериментальных исследований приведен в приложении Ж.

1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ

Продукты линейки STATISTICA являются мощным инструментом для анализа данных, визуализации, прогнозирования, нейросетевых вычислений, Data Mining и контроля качества.

Линейка продуктов STATISTICA включает в себя [1]: базовый продукт STATISTICA Base, предоставляющий широкий набор основных статистик и графических инструментов; продукт STATISTICA Advanced, позволяющий работать с углубленными методами анализа; автоматизированные нейронные сети SANN; средства для добычи данных Data Mining; промышленные модули STATISTICA для контроля качества.

В данном учебно-методическом пособии описана технология анализа данных в однопользовательской англоязычной версии пакета STATISTICA 10, однако параллельно всегда приводятся ссылки на русскоязычный интерфейс пакета.

На руссом сайте STATISTICA имеется электронный учебник по статистике

(http://statsoft.ru/resources/statistica_text_book.php), который поможет студентам изучить основные понятия статистики и более полно представить диапазон статистических методов.

1.1 Интерфейс пакета STATISTICA 10

Интерфейс пакета STATISTICA 10 представлен в виде ленты со следующи-

ми вкладками: Home (Главная), Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Statistics (Анализ), Data Mining (Добыча Данных), Graphs (Графика), Tools (Сервис), Scorecard (Данные), Help (Справка). Содержимое вкладок зависит от режима работы с пакетом. В приложении А приведено содержимое вкладок STATISTICA 10 для режима работы с таблицами.

После запуска STATISTICA 10 на экране появится рабочее окно пакета (рисунок 1.1), похожее на окно электронных таблиц MS Excel. В окне Welcome to STATISTICA (Приглашение в STATISTICA) выбирается способ начала работы

спрограммой:

–открыть файл данных STATISTICA (Open a STATISTICA);

–открыть книгу Excel (Data Rile Open an Excel Workbook);

–создать запрос к внешней базе данных (Query an external database);

–открыть отчет (Open a Report);

–открыть рабочую книгу (Open a Workbook);

–открыть макрос (Open a Macro);

–открыть скрипт R (Open an R Script);

–открыть проект Data Miner (Open a Data Miner Project);

–открыть проект STATISTICA (Open STATISTICA Project);

–открыть электронный учебник (Consult Electronic Textbook);

–просмотреть видео (View Video).

В этом окне также указаны последние файлы, с которыми работал пользователь.

Рисунок 1.1 – Начало работы с пакетом STATISTICA 10

В пакете STATISTICA 10 используется пять основных типов документов:

1 Рабочие книги (Workbooks). Рабочие книги STATISTICA 10 являются стандартным способом управления выводом данных в пакете. В рабочей книге каждый документ (например, таблица данных или график) представлен в виде отдельной вкладки.

2 Таблицы данных (Spreadsheets). Таблицы данных STATISTICA 10 является двумерными таблицами, которые могут содержать практически неограниченное число наблюдений (строк) и переменных (столбцов), при этом каждая ячейка может содержать неограниченное количество символов.

3 Отчеты (Reports). Отчеты STATISTICA 10 предлагают традиционный способ представления результатов анализа, при котором каждый объект (например, таблица или график STATISTICA 10) отображается в документе текстового процессора.

4 Графики (Graphs). Пакет STATISTICA 10 содержит большое количество графических методов, включающих программные средства для обработки данных

и проверки гипотез. Во многих случаях использование графического представления информации позволяет более эффективно работать с числовыми данными.

5 Макросы (Macros) на языке STATISTICA Visual Basic. В пакете

STATISTICA 10 содержатся макросы, позволяющие пользователям расширять функциональные возможности STATISTICA 10, добавляя новые пользовательские модули и элементы.

Файлы данных в пакете STATISTICA 10 имеют расширение *.sta.

На рисунке 1.1 видно, что файл STATISTICA 10 состоит из строк и столбцов. Столбцы таблицы данных STATISTICA 10 называются переменными (Variables), а строки – наблюдениями (Cases). В качестве переменных обычно выступают исследуемые величины, а наблюдения – это значения, которые принимают переменные в отдельных измерениях. Таблицы данных могут содержать как численную, так и текстовую информацию.

1.2 Аналитические модули STATISTICA 10

Пакет STATISTICA 10 организован по модульному принципу: все методы статистической обработки, реализованные в пакете, разбиты на несколько групп – модулей – в соответствии с основными разделами статистического анализа [1].

Основные модули STATISTICA 10: основные статистики и таблицы, кластерный анализ, множественная регрессия, дискриминантный анализ, дисперсионный анализ, подгонка распределений, факторный анализ, деревья классификации, многомерное шкалирование и др.

Модуль Basic Statistics (Основные статистики и таблицы) содержит ос-

новные описательные или дескриптивные статистики, методы анализа и построения различных таблиц, включая таблицы сопряженности, таблицы флагов и заголовков, разносторонний инструментарий проведения разведочного анализа данных. В этом модуле доступны классические t-критерии Стьюдента для независимых и зависимых выборок, группировка и однофакторный дисперсионный анализ. В этом модуле также доступен вероятностный калькулятор и различные критерии значимости (критерии различий долей, корреляций и средних) [1].

В модуль Cluster (Кластерный анализ) включены различные алгоритмы классификации, выделения однородных групп или кластеров. Этот модуль содержит мощные средства кластеризации (иерархическая кластеризация, метод k- средних, 2-входовое объединение). Пакет STATISTICA 10 может обрабатывать как исходные файлы данных, так и матрицы расстояний (например, матрицы корреляций) и может группировать объекты, как по наблюдениям, так и по переменным [1].

Модуль Multiple Regression (Множественная регрессия) позволяет по-

строить объяснительную регрессионную модель, оценить параметры модели методом наименьших квадратов, вычислить подробные статистики (построить графики, провести анализ остатков). Общее назначение множественной регрессии со-

1 / 161 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.03.201628.14 Кб68%D0%9A%D0%A0%20%D0%BF%D0%BE%20%D0%A7%D0%9C%20%D0%90%D0%A4%D0%9A%20%282%29.docx
#
29.09.20191.02 Mб18(ebook - russian) Подобин, Вячеслав. Зимина, Ия...doc
#
14.03.20165.88 Mб13401 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ.pdf
#
03.04.201596.77 Кб5605- тестовые задания.doc
#
03.04.201537.87 Кб581-Лек-ОбщХарСор.docx
#
03.04.20151.17 Mб236123.doc
#
14.03.201648.02 Mб59130053.rtf
#
14.03.2016159.23 Кб2051724_Osobennosti_razvitia_obuchenia_i_fizichesko (2).doc