- •Элементы
- •5.1. Проверка гипотез о параметрах распределений.
- •5.1.1. Проверка значения математического ожидания нормального распределения.
- •5.1.2. Проверка значения дисперсии нормального распределения.
- •5.1.3. Проверка значения доли (параметра биноминального распределения).
- •5.2. Сравнение выборок
- •5.2.1. Сравнение дисперсий
- •5.2.2. Сравнение средних двух независимых выборок
- •5.2.3. Сравнение средних парных выборок.
- •5.2.4. Сравнение долей (параметра биноминального распределения)
- •5.3. Проверка однородности выборок.
- •5.4. Дисперсионный анализ (anova)
- •5.4.1. Однофакторный дисперсионный анализ.
- •5.4.2. Многофакторный дисперсионный анализ.
5.2.3. Сравнение средних парных выборок.
В практике статистических исследований парные выборки возникают при изучении эффективности влияния некоторых воздействий наn объектов. Результат этого воздействия на i-ый объект можно представить в виде разностей . Если их распределение можно аппроксимировать нормальным с генеральным средним, то статистика
имеет распределение Стьюдента с числом степеней свободы . Поэтому гипотезуна уровне значимостипринимаем , еслипри двухсторонней альтернативной гипотезе. Если гипотезуотвергаем, то для генерального среднего разности соответствующий доверительный интервал имеет вид:
5.2.4. Сравнение долей (параметра биноминального распределения)
Если доли некоторого признака в двух выборках объёма равныи, то для проверки гипотезыпри достаточно большихможно воспользоваться статистикой
,
где . Если,, или, то нулевая гипотезаотклоняется в пользу альтернатив:,, илисоответственно.
Если сравниваются выборок объёмакаждая, то для проверки гипотезыприменяется критерий «хи-квадрат», для которого вычисляется статистика
,
где. При справедливости нулевой гипотезы величинаимеет хи-квадрат распределение сстепенями свободы. Поэтому гипотеза о равенстве долей во всех совокупностях отвергается если окажется, что, Критическое значениенаходится либо из таблиц квантилей этого распределения, либо вEXCEL с помощью функции ХИ2ОБР в меню «Статистические»/
5.3. Проверка однородности выборок.
Выборки называются однородными, если они сделаны или из одной и той же генеральной совокупности, или из разных, но с одним и тем же законом распределения. Предположим сначала, что имеется две выборки и. Разобъём множество значений нанепересекающихся интервалов, и подсчитаем, сколько вариантисодержится в каждом из них. Пусть в-ом интервале оказалосьвариантивариант. Желательно, чтобы в каждом из интервалов находилось не менее пяти вариант. При необходимости соседние интервалы, в которых оказывается мало вариант, следует объединить. Очевидно, что. Обозначим - общее число вариант в -ом интервале, а- общее число вариант в двух выборках. Тогда отношениеможно принять в качестве оценки вероятности попадания варианты в-ый интервал. Статистика
имеет распределение, близкое к распределению хи-квадрат с степенью свободы. Поэтому гипотезу однородности следует отвергнуть на уровне значимости, если эта статистика превышает значение.
В Excel проверку однородности можно проводить также, как и проверку адекватности, функцией ХИ2ТЕСТ. Проведём такую проверку на следующем примере. Студенты, чьи результаты были представлены в п.3.2 , были из 2 разных подгрупп и занимались в разное время. Для анализа однородности их результатов применим функцию ЧАСТОТА сначала к первым 11 строкам (подгруппа 1), а затем к оставшимся 14 (подгруппа 2). Просуммировав полученные данные по строкам ( =СУММ H3:I3 c последующим протаскиванием формулы по столбцу J ) и столбцам (), получаем таблицу:
|
G |
H |
I |
J |
1 |
|
Подгруппа 1 |
Подгруппа 2 |
Сумма |
2 |
интервал |
|
|
|
3 |
303 |
2 |
2 |
4 |
4 |
306 |
5 |
7 |
12 |
5 |
309 |
10 |
13 |
23 |
6 |
312 |
14 |
17 |
31 |
7 |
315 |
9 |
11 |
20 |
8 |
318 |
4 |
4 |
8 |
9 |
321 |
0 |
2 |
2 |
10 |
Сумма |
44 |
56 |
100 |
Затем формируем таблицу выборок, ожидаемых в предположении их однородности. Для этого в ячейку H14 вводим формулу =I4*44/100 c последующим протаскиванием формулы по столбцу H, а в ячейку I14 - формулу =I4*56/100 с протаскиванием по столбцу I.
|
G |
H |
I | |
12 |
|
Подгруппа 1 |
Подгруппа 2 | |
13 |
интервал |
|
| |
14 |
303 |
1,76 |
2,24 | |
15 |
306 |
5,28 |
6,72 | |
16 |
309 |
10,12 |
12,88 | |
17 |
312 |
13,64 |
17,36 | |
18 |
315 |
8,8 |
11,2 | |
19 |
318 |
3,52 |
4,48 | |
20 |
321 |
0,88 |
1,12 | |
21 |
Сумма |
44 |
56 |
Затем открываем диалоговое окно функции ХИ2ТЕСТ и в окошко «Фактический интервал» вводим координаты исходного массива (H3:I9), а в окошко «Ожидаемый массив» - координаты вычисленного (H14:I20). В результате появляется число 0,93707, которое показывает вероятность того, что в -распределении с 6 степенями свободы значениебольше вычисленного . Поскольку эта вероятность оказалась меньше, чем 0,95, то мы принимаем гипотезу об однородности и считаем, что различия в результатах студентов из двух подгрупп действительно случайны.
Эта процедура обобщается на произвольное число выборок иинтервалов. Обозначим число вариант-ой выборки, попавших в-ый интервал. Очевидно, что-объёму-ой выборки, а-общее число вариант в-ом интервале.- общему числу вариант. Если гипотезасправедлива, и все варианты относятся к одному распределению, то, как и выше отношениеможно считать приближённо равным вероятности попадания варианты в-ый интервал, и статистика
распределена по закону хи-квадрат с степенями свободы. Гипотезуследует отвергнуть на уровне значимости, если эта статистика превышает значение.
Если есть подозрение, что какая-то из выборок не подчиняется общему закону распределения, то для неё можно вычислить индивидуальный критерий
При условии следует признать, что эти подозрения обоснованы и искать причины такого отклонения.