Парыгина СА_Математическая статистика-SPSS
.PDFПараметры задаются конкретные статистические величины, которые нужно вычислить. Также данная команда позволяет вывести на вкладке Данные в отдельный столбец стандартизированные значения для количественных переменных (для этого в главном окне нужно установить соответствующую галочку).
Практическая часть
Задание 1
1.Разработать анкету для проведения социологического (психологического) опроса, биологического исследования, содержащую не менее 4-х переменных, измеренных в разных шкалах.
2.Провести анкетирование студентов своей подгруппы (не менее 15 человек) и подготовить результаты анкеты к компьютерной обработке, составив матрицу данных.
Задание 2
Начать компьютерную обработку экспериментальных данных анкеты с помощью пакета SPSS с описания всех переменных на вкладке Переменные.
Задание 3
Провести описательный статистический анализ отдельно количественных и качественных переменных анкеты с помощью соответствующих команд пакета SPSS.
11
Лабораторная работа 2
Реализация однофакторного дисперсионного анализа с помощью пакета SPSS
Теоретическая часть
В социальных, биологических, психологических или иных исследованиях, анализируя взаимосвязи качественных и количественных переменных, достаточно часто сравнивают средние значения некоторых количественных переменных в нескольких группах, выделенных по качественному признаку. Например, необходимо сопоставить величину средней заработной платы в группах респондентов, опрошенных в разных типах населенных пунктов, либо сравнить среднегодовой прирост лиственных и хвойных деревьев, либо установить различаются ли средние показатели коэффициента интеллекта у представителей разных социальных групп и т.п.
Такого рода статистический анализ в рамках пакета программ SPSS начинается с выполнения команд: Анализ → Сравнение средних. Далее, в подменю команды Сравнение средних, пакет SPSS предоставляет следующие возможности для анализа данных:
1.С помощью команды Средние – вычисление средних значений, стандартных отклонений и большого числа других статистических характеристик для каждой из количественных переменных.
2.С помощью команды Одновыборочный t-критерий – реа-
лизация критерия T для проверки гипотезы о числовом значении математического ожидания нормальной генеральной совокупности (малая выборка).
3.С помощью команды Т-критерий для независимых выбо-
рок – реализация критерия Стьюдента для проверки гипотезы об однородности математических ожиданий двух нормальных генеральных совокупностей (малые независимые выборки).
4.С помощью команды Т-критерий для парных выборок –
реализация критерия Стьюдента для зависимых выборок.
5.С помощью команды Однофакторный дисперсионный анализ – реализация одноименного метода.
12
Статистический анализ удобно начать, используя команду Средние, причем в соответствующем окне команды необходимо задать два типа переменных. Первый тип переменных – Зависимые переменные – это количественные переменные, средние значения которых необходимо вычислить (в частности, переменная «доход в месяц»). Второй тип переменных – Независимые переменные – это качественные переменные, которые определяют разделение всей совокупности данных на определенные группы (в частности, переменная «место жительства»).
Пример 1
В трех крупных городах России были получены данные о доходах респондентов. Введены переменные:
«Доход в месяц» – количественная переменная, измеряется в тыс. рублей;
«Место жительства» – качественная переменная, обозначает населенный пункт.
В результате применения к исходным данным команды Средние, получим (по умолчанию) следующий отчет (табл. 2.1).
Таблица 2.1
Отчет по переменной «Доход в месяц»
Место жительства |
Среднее |
N |
Стандартное |
|
отклонение |
||||
|
|
|
||
|
|
|
|
|
г. Санкт-Петербург |
54,00 |
4 |
2,94 |
|
|
|
|
|
|
г. Москва |
55,00 |
4 |
2,58 |
|
|
|
|
|
|
г. Екатеринбург |
47,25 |
4 |
4,43 |
|
|
|
|
|
|
Итого |
52,08 |
12 |
4,74 |
|
|
|
|
|
Самый высокий средний доход демонстрируют респонденты г. Москвы – 55 тыс. рублей в месяц, самый низкий – опрошенные из г. Екатеринбурга (чуть более 47 тыс. рублей). Исходя из данных таблицы 2.1., мы можем убедиться в наличии различий в средних
13
доходах респондентов, однако, необходимо проверить, значимы ли эти различия.
Проверка значимости различий средних значений нескольких количественных переменных, соответствующих разным уровням качественного фактора F, осуществляется с помощью однофакторного дисперсионного анализа (One-Way ANOVA). Для этого нужно выполнить:
1.Выбрать следующие команды меню и подменю: Анализ → Сравнение средних → Однофакторный дисперсионный анализа.
2.Перенести количественные переменные в Список зависимых переменных, а качественную переменную в поле Фактор.
3.Выбрать дополнительные опции с помощью кнопки Параметры, в частности, рекомендуется проверить однородность дисперсий и построить график средних.
4.Запустить ANOVA, нажав кнопку Ок.
Представленный отчет будет содержать:
таблицу с результатами теста Левина на гомогенность (однородность) дисперсий генеральных совокупностей;
таблицу с результатами однофакторного дисперсионного анализа, включая вероятность ошибки или значимость (Знч.) критической статистики;
график средних.
Установка флажка Описательные показывает: количество наблюдений, средние значения, стандартные отклонения и стандартные ошибки средних, 95 % – доверительные интервалы, минимумы и максимумы для всех уровней фактора.
Результаты применения команды Однофакторный дисперсионный анализ для данных примера 1 представлены в табл. 2.2, 2.3.
Таблица 2.2
Проверка однородности дисперсий для переменной «Доход в месяц»
Статистика Левина |
Ст. св. 1 |
Ст. св. 2 |
Знч. |
|
|
|
|
3,900 |
2 |
9 |
0,060 |
|
|
|
|
14
Критерий однородности дисперсий Левина позволяет получить информацию о корректности применения дисперсионного анализа для рассматриваемых данных. В табл. 2.2. значимость критерия Левина оказалась равной: Знч. = 0,06, и это больше, чем стандартный уровень значимости α = 0,05; следовательно, соответствующая критическая статистика (3,9) попадает в область принятия нулевой гипотезы H0, а это значит, что дисперсии для каждой из выборок, соответствующих трем крупным городам (см. табл. 2.1) различаются незначимо. Следовательно, результаты One-Way ANOVA могут быть признаны корректными.
Таблица 2.3
Результаты One-Way ANOVA по проверке значимости различий средней заработной платы в трех крупных городах России
|
Сумма |
Ст. св. |
Средний |
F |
Знч. |
|
(степени |
квадрат |
(критическая |
||
|
квадратов |
(значимость) |
|||
|
свободы) |
(дисперсии) |
статистика) |
||
|
|
|
|
|
|
Между |
142,167 |
2 |
71,083 |
|
|
группами |
|
|
|||
|
|
|
|
|
|
|
|
|
|
6,107 |
0,021 |
Внутри |
104,750 |
9 |
11,639 |
||
групп |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
Итого |
246,917 |
11 |
|
|
|
|
|
|
|
|
|
В табл. 2.3. приводятся факторные (строка «между группами») и остаточные (строка «внутри групп») суммы квадратов, степени свободы и дисперсии, далее идет значение критической статистики ANOVA и значимость этой статистики. В нашем примере Знч. = 0,021 меньше, чем α = 0,05. Следовательно, Fнабл 6,107 по-
падает в критическую область, и гипотеза H0 отвергается в пользу гипотезы H1 о том, что различия средней заработной платы в трех крупных городах России значимы.
15
Пример 2
Проведем однофакторный дисперсионный анализ данных из примера 1 вручную. Для этого вернемся к первичным значениям заработной платы для трех городов, соответствующая структура данных представлена в табл. 2.4.
Таблица 2.4
Структура данных для применения однофакторного дисперсионного анализа вручную
Номер |
Уровни фактора F (переменной «Место жительства») |
||
|
|
|
|
респондента |
F1 |
F2 |
F3 |
|
(г. Санкт-Петербург) |
(г. Москва) |
(г. Екатеринбург) |
1 |
51 |
52 |
43 |
|
|
|
|
2 |
52 |
54 |
44 |
|
|
|
|
3 |
56 |
56 |
50 |
|
|
|
|
4 |
57 |
58 |
52 |
|
|
|
|
Групповое среднее x j |
54 |
55 |
47,25 |
|
|
|
|
Р е ш е н и е :
Для упрощения расчетов вычтем с = 52 из каждого наблюдаемо-
го значения: yij = xij – 52, так как 54 55 47,25 52,08 52. 3
1.Сформулируем нулевую гипотезу H0 и альтернативную H1: H0: 1 = 2 = 3; H1: «По крайней мере 2 j (j = 1, 2, 3) различны».
2.Выберем уровень значимости α = 0,05.
3.Составим расчетную табл. 2.5. Пользуясь таблицей и учитывая, что число уровней р =3, а число испытаний на каждом уровне q = 4, найдем факторную и остаточную суммы квадратов отклонений.
16
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 2.5 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Номер |
|
|
|
Уровни фактора F |
|
|
|
Итоговый |
||||||
|
F1 |
|
F2 |
|
|
F3 |
||||||||
респондента |
|
|
|
|
столбец |
|||||||||
yi1 |
|
yi12 |
yi2 |
|
yi22 |
|
yi3 |
|
yi32 |
|||||
1 |
|
-1 |
|
1 |
0 |
|
0 |
|
-9 |
|
81 |
|
|
|
2 |
|
0 |
|
0 |
2 |
|
4 |
|
-8 |
|
64 |
|
|
|
3 |
|
4 |
|
16 |
4 |
|
16 |
|
-2 |
|
4 |
|
|
|
4 |
|
5 |
|
25 |
6 |
|
36 |
|
0 |
|
0 |
|
|
|
Qj 4 |
yij2 |
|
|
42 |
|
|
56 |
|
|
|
149 |
3 |
Qj 247 |
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Tj 4 |
yij |
8 |
|
|
12 |
|
|
|
-19 |
|
|
3 |
Tj 1 |
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Tj2 |
|
64 |
|
|
144 |
|
|
|
361 |
|
|
3 |
Tj2 569 |
|
|
|
|
|
|
|
|
|
|
|
|
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В соответствии с обозначениями таблицы перепишем формулы для вычисления факторной и остаточной дисперсий:
p Tj2
SSфакт j 1q
|
|
p |
2 |
|
|
|
|
|
|
|
|
Tj |
|
569 |
|
|
1 |
|
|
|
|
j 1 |
|
|
|
142,25 0,083 142,167; |
|||
|
pq |
|
4 |
12 |
p |
p |
Tj2 |
|
|
SSост Qj |
j 1 |
|
247 142,25 104,75. |
|
q |
||||
j 1 |
|
Найдем факторную и остаточную дисперсии:
|
|
s |
2 |
|
|
SSфакт |
|
142,167 |
71,0835; |
|||||
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
факт |
|
|
p |
1 |
|
3 1 |
|
||||
|
|
|
|
|
|
|
|
|
|
|||||
s2 |
|
|
|
|
SSост |
|
|
104,75 |
104,75 11,636. |
|||||
|
|
|
|
|
|
|||||||||
ост |
|
|
p (q 1) |
|
3 (4 1) |
|
9 |
|||||||
|
|
|
|
|
17
4. Сравним факторную и остаточную дисперсии по критерию Фишера-Снедекора, для чего найдем наблюдаемое значение критерия:
F |
sфакт2 |
|
71,0835 |
6,107. |
|
s2 |
11,636 |
||||
набл |
|
|
|||
|
ост |
|
|
|
Учитывая, что число степеней свободы числителя k1 = 2, а знаменателя k2 = 9 и уровень значимости α = 0,05, по таблице критических точек распределения Фишера-Снедекора находим критическую точку:
Fкр(0,05; 2; 9) = 4,26.
Так как 6,107 > 4,26, т.е. Fнабл > Fкр, то нулевая гипотеза о равенстве групповых средних отвергается, а значит, средние размеры за-
работной платы в трех крупных городах России различаются значимо. Для нахождения конкретных пар городов, где имеют место различия, следует воспользоваться критерием Стьюдента.
Практическая часть
Задание 1
Произведено по 5 испытаний на каждом из уровней фактора F. Методом дисперсионного анализа на уровне значимости α проверить нулевую гипотезу о равенстве математических ожиданий соответствующих нормальных генеральных совокупностей, имеющих одинаковые дисперсии. Проверка осуществляется а) вручную; б) с помощью SPSS. Результаты испытаний и значения уровня значимости α для каждого варианта приведены в табл. 1, 2 (Приложение 1).
Задание 2
Составить массив данных для анализа различий среднегодовых доходов двенадцати респондентов с разным уровнем образования (не менее шести уровней). Применить однофакторный дисперсион-
18
ный анализ и дать интерпретацию полученных результатов. Проверку осуществить на ЭВМ. Если нулевая гипотеза будет отвергнута, провести попарное сравнение выборочных средних с помощью критерия Стьюдента.
Задание 3
Составить массив данных для анализа различий среднегодового прироста двенадцати деревьев, принадлежащих к разным отрядам (не менее шести отрядов). Применить однофакторный дисперсионный анализ и дать интерпретацию полученных результатов. Проверку осуществить на ЭВМ. Если нулевая гипотеза будет отвергнута, провести попарное сравнение выборочных средних с помощью критерия Стьюдента.
Задание 4
Составить массив данных для анализа различий средних показателей воспроизведения слов, обозначающих разное значение цвета, у двенадцати испытуемых. Для сравнения выбраны шесть цветов: желтый, зеленый, красный, синий, коричневый, черный. Применить однофакторный дисперсионный анализ и дать интерпретацию полученных результатов. Проверку осуществить на ЭВМ. Если нулевая гипотеза будет отвергнута, провести попарное сравнение выборочных средних с помощью критерия Стьюдента.
19
Лабораторная работа 3
Вычисление выборочных коэффициентов корреляции с помощью электронного пакета SPSS
Теоретическая часть
Обработка социологических, биологических или психологических данных с помощью одномерных частотных распределений, как правило, является начальным этапом анализа собранной информации. Вместе с те, наиболее интересные для исследователя вопросы связаны с одновременным анализом значений более одной переменной.
Процесс анализа собранных данных предполагает формирование гипотез типа: «социальные группы с разным уровнем образования (дохода, должностью, местом жительства и т.д.) отличаются по электоральным предпочтениям (степенью удовлетворенности жизнью, психологическими особенностями и т.д.)» или «растения, принадлежащие к разным семействам, отличаются своими морфометрическими показателями» и др. Другими словами, допускается, что существует взаимосвязь между двумя и более переменными.
Такого рода взаимосвязи можно выявить с помощью следующих основных коэффициентов корреляции: Пирсона, φ, rpb, Спирмена, τ Кендалла.
Три из пяти коэффициентов корреляции можно вычислить с помощью электронного пакета SPSS, а именно: Пирсона, Спирмена и τ Кендалла. При вычислении коэффициента rpb SPSS можно использовать для вспомогательных расчетов.
Для вычисления коэффициентов Пирсона, Спирмена или τ Кендалла необходимо выполнить следующие действия:
1.Выбрать следующие команды меню и подменю: Анализ → Корреляции → Парные.
2.Перенести оба признака в поле Переменные, а также установить галочку напротив нужного коэффициента корреляции.
3.При необходимости задать дополнительные параметры с помощью одноименной кнопки.
20