01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ
.pdfФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ БРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЗИЧЕСКОЙ КУЛЬТУРЫ»
КАФЕДРА МАТЕМАТИКИ, ФИЗИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
С. Т. Касюк
ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ
И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ
Учебно-методическое пособие
Рекомендовано методическим советом УралГУФК
Челябинск Уральская Академия
2015
1
УДК 796:311(075.8)
ББК 75:60.6я73
K289
Рекомендовано к изданию методическим советом УралГУФК Протокол № __ от __.__.2015 г.
Рецензенты:
Доцент кафедры математики Челябинской государственной агроинженерной академии, к.п.н. О. Е. Акулич
Доцент кафедры математики, физики и информационных технологий УралГУФК, к.п.н. В. М. Ларионов
Касюк, С. Т.
Первичный, кластерный, регрессионный и дискриминантный анализ данных спортивной медицины на компьютере: учеб.-метод. пособие / С. Т. Касюк. – Челябинск : Уральская Академия, 2015. – 160 с.
В учебно-методическом пособии даны теоретические основы проведения первичного, кластерного, регрессионного и дискриминантного анализа данных. Приведены пошаговые примеры анализа данных спортивной медицины в пакете STATISTICA 10. Даны варианты заданий для самостоятельного выполнения.
Учебно-методическое пособие предназначено для студентов факультета оздоровительных технологий и спортивной медицины УралГУФК, изучающих компьютерную обработку данных экспериментальных исследований.
УДК 796:311(075.8)
ББК 75:60.6я73
©УралГУФК, 2015 ©Касюк С. Т., 2015
2
|
СОДЕРЖАНИЕ |
|
ВВЕДЕНИЕ................................................................................................... |
6 |
|
1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ...................................................... |
8 |
|
1.1 |
Интерфейс пакета STATISTICA 10........................................................ |
8 |
1.2 |
Аналитические модули STATISTICA 10............................................... |
10 |
1.3 |
Создание файла данных в пакете STATISTICA 10.............................. |
11 |
1.4 |
Вычисление описательных статистик данных в пакете |
|
STATISTICA 10........................................................................................................ |
18 |
|
1.5 |
Нормальное распределение случайной величины................................ |
23 |
1.6 Проверка характера распределения переменной на нормальность........... |
26 |
|
1.7 |
Варианты заданий по вычислению описательных статистик |
|
выборок в пакете STATISTICA 10......................................................................... |
33 |
|
2 КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ................................................... |
36 |
|
2.1 |
Постановка задачи кластерного анализа............................................... |
36 |
2.2 |
Меры расстояний в кластерном анализе............................................... |
37 |
2.3 |
Этапы и алгоритмы кластерного анализа.............................................. |
38 |
2.4 |
Алгоритм кластеризации k-средних....................................................... |
40 |
2.5 |
Пример проведения кластерного анализа алгоритмом k-средних |
|
в пакетe STATISTICA 10......................................................................................... |
41 |
|
2.6 |
Алгоритм древовидной кластеризации.................................................. |
50 |
2.7 |
Пример проведения кластерного анализа алгоритмом |
|
древовидной кластеризации в пакетe STATISTICA 10........................................ |
52 |
|
2.8 |
Проблемы алгоритмов кластеризации................................................... |
58 |
|
3 |
|
2.9 |
Варианты заданий по кластерному анализу в пакете |
|
STATISTICA 10........................................................................................................ |
59 |
|
3 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ........................................... |
65 |
|
3.1 |
Постановка задачи регрессионного анализа......................................... |
65 |
3.2 |
Линейная регрессионная модель............................................................ |
68 |
3.3 |
Оценка соответствия простой линейной регрессии реальным |
|
данным...................................................................................................................... |
|
69 |
3.4 |
Проверка значимости регрессионной модели и коэффициентов |
|
уравнения регрессии................................................................................................ |
74 |
|
3.5 Значение остатков при изучении результатов регрессионного |
|
|
анализа...................................................................................................................... |
|
75 |
3.6 |
Пример проведения регрессионного анализа в пакетe |
|
STATISTICA 10........................................................................................................ |
76 |
|
3.7 |
Методы отбора переменных в регрессионные модели........................ |
84 |
3.8 |
Пример проведения множественного регрессионного анализа |
|
в пакетe STATISTICA 10......................................................................................... |
86 |
|
3.9 |
Ограничения применимости регрессионных моделей......................... |
96 |
3.10 Варианты заданий для проведения регрессионного анализа |
|
|
в пакете STATISTICA 10......................................................................................... |
97 |
|
3.11 Варианты заданий для проведения множественного |
|
|
регрессионного анализа в пакете STATISTICA 10............................................... |
102 |
|
4 ДИСКРИМАНАНТНЫЙ АНАЛИЗ ДАННЫХ................................... |
108 |
|
4.1 |
Постановка задачи дискриминантного анализа.................................... |
108 |
4.2 |
Алгоритм проверки возможности проведения дискриминантного |
|
анализа...................................................................................................................... |
|
109 |
4.3 |
Основные методы проведения дискриминантного анализа................ |
109 |
|
4 |
|
4.4 Пример проведения дискриминантного анализа в пакете |
|
STATISTICA 10.…................................................................................................... |
112 |
4.5 Варианты заданий для проведения дискриминантного анализа |
|
в пакете STATISTICA 10......................................................................................... |
135 |
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА...................................................... |
141 |
ПРИЛОЖЕНИЯ........................................................................................... |
142 |
А Интерфейс пакета STATISTICA 10.......................................................... |
143 |
Б Критерий Шапиро-Уилка; p-квантили статистики критерия W |
|
для p = α = 0,01 и 0,05.............................................................................................. |
152 |
В Критические значения для наибольшего отклонения эмпирического |
|
распределения от теоретического (критерий Колмогорова)............................... |
153 |
Г Таблица значений χ2 распределения Пирсона......................................... |
154 |
Д Критические точки F-pacпpeделения Фишера, α = 0,05 и 0,01............. |
155 |
Е Критические точки распределения Стьюдента....................................... |
157 |
Ж Список вопросов к зачету по компьютерной обработке данных |
|
экспериментальных исследований......................................................................... |
158 |
5
ВВЕДЕНИЕ
Научные исследования в сфере спортивной медицины и оздоровительных технологий приводят к накоплению большого количества данных о воздействии реабилитационных, терапевтических и болезнетворных факторов на организм человека, которые требуют количественной оценки и интерпретации. Обработка экспериментальных данных в настоящее время может осуществляться на компьютере в статистических пакетах. Поэтому необходимо на уровне высшего профессионального образования сформировать компетентность как в областях современных методов статистического анализа данных, так и использования соответствующих прикладных программ.
Целью данного учебно-методического пособия является обучение студентов факультета оздоровительных технологий и спортивной медицины УралГУФК компьютерной обработке данных экспериментальных исследований в пакете
STATISTICA 10.
Материал учебно-методического пособия разбит на разделы и представлен в следующем виде:
1)первичный анализ данных – интерфейс пакета STATISTICA 10, вычисление описательных статистик, проверка нормальности распределения, построение гистограмм;
2)кластерный анализ – задача кластерного анализа, меры расстояний, выбор числа кластеров, алгоритм k-средние, алгоритм древовидной кластеризации, проблемы алгоритмов кластеризации;
3)регрессионный анализ – задача регрессионного анализа, метод наименьших квадратов, основные статистические показатели регрессионного анализа, проверка значимости регрессионной модели и коэффициентов уравнения регрессии, анализ остатков, методы отбора переменных в регрессионные модели, ограничения регрессионных моделей;
4)дискриминантный анализ – задача дискриминантного анализа, проверка возможности проведения дискриминантного анализа, линейный дискриминационный анализ Фишера, канонический дискриминационый анализ, основные статистические показатели дискриминантного анализа.
В учебно-методическом пособии приведены примеры пошагового проведения первичного, кластерного, регрессионного и дискриминантного анализа данных в пакете STATISTICA 10, а также даны варианты заданий для самостоятельного выполнения.
При работе над данным учебно-методическим пособием автор стремился использовать только качественные источники и материалы, приведенные в списке литературы. В качестве теоретической литературы по проведению первичного, кластерного, регрессионного и дискриминантного анализа данных спортивной медицины рекомендуются книги по статистической обработке данных клинических
6
исследований, а именно «Медико-биологическая статистика» С. Гланца, «Медицинская статистика» К. Жижина, «Наглядная статистика» А. Петри, Э. Сэбина, «Математическая статистика в медико-биологических исследованиях с применением пакета Statistica» Н.В. Трухачевой. В качестве литературы по работе с пакетом STATISTICA 10 рекомендуются книги В.П Боровикова, например «Популярное введение в современный анализ данных в системе STATISTICA».
Изучение компьютерной обработки данных экспериментальных исследований является сложной компонентой обучения, требующей от студентов целеустремленности, высокой трудоспособности и дисциплины. Автор надеется, что данное учебно-методическое пособие окажет студентам реальную помощь.
Список вопросов к зачету по компьютерной обработке данных экспериментальных исследований приведен в приложении Ж.
7
1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ
Продукты линейки STATISTICA являются мощным инструментом для анализа данных, визуализации, прогнозирования, нейросетевых вычислений, Data Mining и контроля качества.
Линейка продуктов STATISTICA включает в себя [1]: базовый продукт STATISTICA Base, предоставляющий широкий набор основных статистик и графических инструментов; продукт STATISTICA Advanced, позволяющий работать с углубленными методами анализа; автоматизированные нейронные сети SANN; средства для добычи данных Data Mining; промышленные модули STATISTICA для контроля качества.
В данном учебно-методическом пособии описана технология анализа данных в однопользовательской англоязычной версии пакета STATISTICA 10, однако параллельно всегда приводятся ссылки на русскоязычный интерфейс пакета.
На руссом сайте STATISTICA имеется электронный учебник по статистике
(http://statsoft.ru/resources/statistica_text_book.php), который поможет студентам изучить основные понятия статистики и более полно представить диапазон статистических методов.
1.1 Интерфейс пакета STATISTICA 10
Интерфейс пакета STATISTICA 10 представлен в виде ленты со следующи-
ми вкладками: Home (Главная), Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Statistics (Анализ), Data Mining (Добыча Данных), Graphs (Графика), Tools (Сервис), Scorecard (Данные), Help (Справка). Содержимое вкладок зависит от режима работы с пакетом. В приложении А приведено содержимое вкладок STATISTICA 10 для режима работы с таблицами.
После запуска STATISTICA 10 на экране появится рабочее окно пакета (рисунок 1.1), похожее на окно электронных таблиц MS Excel. В окне Welcome to STATISTICA (Приглашение в STATISTICA) выбирается способ начала работы
спрограммой:
–открыть файл данных STATISTICA (Open a STATISTICA);
–открыть книгу Excel (Data Rile Open an Excel Workbook);
–создать запрос к внешней базе данных (Query an external database);
–открыть отчет (Open a Report);
–открыть рабочую книгу (Open a Workbook);
–открыть макрос (Open a Macro);
–открыть скрипт R (Open an R Script);
–открыть проект Data Miner (Open a Data Miner Project);
–открыть проект STATISTICA (Open STATISTICA Project);
–открыть электронный учебник (Consult Electronic Textbook);
–просмотреть видео (View Video).
В этом окне также указаны последние файлы, с которыми работал пользователь.
8
Рисунок 1.1 – Начало работы с пакетом STATISTICA 10
В пакете STATISTICA 10 используется пять основных типов документов:
1 Рабочие книги (Workbooks). Рабочие книги STATISTICA 10 являются стандартным способом управления выводом данных в пакете. В рабочей книге каждый документ (например, таблица данных или график) представлен в виде отдельной вкладки.
2 Таблицы данных (Spreadsheets). Таблицы данных STATISTICA 10 является двумерными таблицами, которые могут содержать практически неограниченное число наблюдений (строк) и переменных (столбцов), при этом каждая ячейка может содержать неограниченное количество символов.
3 Отчеты (Reports). Отчеты STATISTICA 10 предлагают традиционный способ представления результатов анализа, при котором каждый объект (например, таблица или график STATISTICA 10) отображается в документе текстового процессора.
4 Графики (Graphs). Пакет STATISTICA 10 содержит большое количество графических методов, включающих программные средства для обработки данных
9
и проверки гипотез. Во многих случаях использование графического представления информации позволяет более эффективно работать с числовыми данными.
5 Макросы (Macros) на языке STATISTICA Visual Basic. В пакете
STATISTICA 10 содержатся макросы, позволяющие пользователям расширять функциональные возможности STATISTICA 10, добавляя новые пользовательские модули и элементы.
Файлы данных в пакете STATISTICA 10 имеют расширение *.sta.
На рисунке 1.1 видно, что файл STATISTICA 10 состоит из строк и столбцов. Столбцы таблицы данных STATISTICA 10 называются переменными (Variables), а строки – наблюдениями (Cases). В качестве переменных обычно выступают исследуемые величины, а наблюдения – это значения, которые принимают переменные в отдельных измерениях. Таблицы данных могут содержать как численную, так и текстовую информацию.
1.2 Аналитические модули STATISTICA 10
Пакет STATISTICA 10 организован по модульному принципу: все методы статистической обработки, реализованные в пакете, разбиты на несколько групп – модулей – в соответствии с основными разделами статистического анализа [1].
Основные модули STATISTICA 10: основные статистики и таблицы, кластерный анализ, множественная регрессия, дискриминантный анализ, дисперсионный анализ, подгонка распределений, факторный анализ, деревья классификации, многомерное шкалирование и др.
Модуль Basic Statistics (Основные статистики и таблицы) содержит ос-
новные описательные или дескриптивные статистики, методы анализа и построения различных таблиц, включая таблицы сопряженности, таблицы флагов и заголовков, разносторонний инструментарий проведения разведочного анализа данных. В этом модуле доступны классические t-критерии Стьюдента для независимых и зависимых выборок, группировка и однофакторный дисперсионный анализ. В этом модуле также доступен вероятностный калькулятор и различные критерии значимости (критерии различий долей, корреляций и средних) [1].
В модуль Cluster (Кластерный анализ) включены различные алгоритмы классификации, выделения однородных групп или кластеров. Этот модуль содержит мощные средства кластеризации (иерархическая кластеризация, метод k- средних, 2-входовое объединение). Пакет STATISTICA 10 может обрабатывать как исходные файлы данных, так и матрицы расстояний (например, матрицы корреляций) и может группировать объекты, как по наблюдениям, так и по переменным [1].
Модуль Multiple Regression (Множественная регрессия) позволяет по-
строить объяснительную регрессионную модель, оценить параметры модели методом наименьших квадратов, вычислить подробные статистики (построить графики, провести анализ остатков). Общее назначение множественной регрессии со-
10