- •1. Анализ пропущенных значений. Методы заполнения пропусков.
- •2. Непараметрические критерии различий двух выборок.
- •3. Графические и аналитические методы анализа.
- •4.Нормальный закон распределения и его значение для прикладной статистики.
- •6.Непараметрические критерии однородности двух выборок.
- •9. Метод кластеризации данных.
- •8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.
- •7.Множественный дисперсионный анализ
- •10. Стандартизация исходных данных
- •11. Основные понятия и алгоритмы кластерного анализа
- •12. Проверка гипотез о коэффициентах регрессии и коэффициентах корреляции
- •Дисперсионный анализ при оценке качества регрессии.
- •Основные возможности пакета Excel для анализа статистических данных.
- •Однофакторный дисперсионный анализ.
- •19. Корреляционный анализ. Парный коэффициент корреляции.
- •20.Основные задачи математической статистики
- •1. Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным
- •2. Задача проверки правдоподобия гипотез
- •3. Задача нахождения неизвестных параметров распределения
- •21. Критерий согласия распределения.
- •22. Основные понятия и алгоритмы кластерного анализа
- •23. Основные проверки статистических гипотез
- •24) Критерий Стьюдента (t-критерий) (проверка гипотез о равенстве средних).
- •27)Методы кластеризации данных
- •28. Параметрические и непараметрические методы.
7.Множественный дисперсионный анализ
Так как все предположения о характере того или иного распределения – это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия, которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда – существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.
Существует ряд критериев согласия. Чаще применяют критерии Пирсона, Романовского и Колмогорова.
Критерий согласия Пирсона – один из основных:
где k – число групп, на которые разбито эмпирическое распределение,
– наблюдаемая частота признака в i-й группе,
– теоретическая частота.
Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты.
Например, при выравнивании по кривой нормального распределения имеется три связи:
Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df = k –3.
При полном совпадении теоретического и эмпирического распределений , в противном случае >0. Если > , то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем.
Критерий Романовского с основан на использовании критерия Пирсона, т.е. уже найденных значений , и числа степеней свободы df:
Он удобен при отсутствии таблиц для .
Если с<3, то расхождения распределений случайны, если же с>3, то не случайны и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.
Критерий Колмогорова l основан на определении максимального расхождения между накопленными частотами и частостями эмпирических и теоретических распределений:
или ,
где D и d – соответственно максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического рядов распределений;
N – число единиц совокупности.
Рассчитав значение l, по таблице Р(l) определяют вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Вероятность Р(l) может изменяться от 0 до 1. При Р(l)=1 происходит полное совпадение частот, Р(l)=0 – полное расхождение. Если l принимает значения до 0,3, то Р(l)=1.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.
Критерий согласия (хи-квадрат)
Критерий согласия разработан лучше других критериев и чаще других используется. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам нормального распределения.
Условия применения: объем выборки n 40, выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.
Гипотеза Н0: — плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.
Альтернатива Н1: .
Уровень значимости: a.