- •Основные условные обозначения в математической статистике
- •Содержание
- •Введение
- •Основы теории вероятностей
- •1Предмет и метод математической статистики
- •2Понятие случайного события
- •3Вероятность случайного события
- •4Основные теоремы теории вероятностей
- •4.1Сложение вероятностей
- •4.2Умножение вероятностей
- •4.3Вычисление вероятностей
- •Случайные переменные
- •5Понятие случайной переменной
- •5.1Дискретные случайные переменные
- •5.2Непрерывные случайные переменные
- •6Математическое ожидание и дисперсия
- •7Моменты
- •Дискретные распределения
- •8Биномиальное распределение и измерение вероятностей
- •9Распределение редких событий (Пуассона)
- •Основные модели теоретических распределений
- •10Прямоугольное (равномерное) распределение
- •11Нормальное распределение
- •12Логарифмически нормальное распределение
- •Распределения параметров выборки
- •13.1Проблема Беренса–Фишера
- •15Χ2–распределение
- •Основы математической статистики
- •16Средние величины
- •16.1Общие свойства средних величин
- •17Средняя арифметическая
- •17.1Средний ранг (непараметрическая средняя)
- •17.2Взвешенная средняя арифметическая
- •17.3Средняя квадратическая
- •17.4Мода
- •17.5Медиана
- •18Средняя геометрическая
- •19Средняя гармоническая
- •Разнообразие значений признака
- •20Стандартное (среднеквадратическое) отклонение
- •20.1Число степеней свободы
- •20.2Коэффициент вариации
- •20.3Лимиты и размах
- •20.4Приближенные значения μ и
- •20.5Нормированное отклонение
- •21Проверка выпадов (артефактов)
- •22Средняя и сигма суммарной группы
- •23Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
- •Графическое представление распределений
- •24Вариационный ряд
- •25Гистограмма и вариационная кривая
- •26Кумулята
- •27Достоверность различия распределений
- •27.1Критерий χ2 (хи квадрат)
- •27.2Критерий λ (лямбда)
- •27.3Критерий по асимметрии и эксцессу
- •Нормальное распределение
- •28Генеральная совокупность и выборка
- •29Репрезентативность
- •30Ошибки репрезентативности и другие ошибки исследований
- •31Доверительные границы
- •Оценка генеральных параметров
- •32Общий порядок оценки
- •32.1Оценка средней арифметической
- •32.2Оценка средней разности
- •32.3Недостоверная и достоверная оценка средней разности
- •32.4Оценка разности генеральных средних
- •33Критерий достоверности разности
- •34Репрезентативность при изучении качественных признаков
- •35Достоверность разности долей
- •Парная корреляция
- •36Коэффициент корреляции
- •37Ошибка коэффициента корреляции
- •37.1Достоверность выборочного коэффициента корреляции
- •37.2Доверительные границы коэффициента корреляции
- •37.3Достоверность разности двух коэффициентов корреляции
- •38Уравнение прямолинейной регрессии
- •39Ошибки элементов уравнения прямолинейной регрессии
- •Частная и множественная линейные корреляции и регрессии
- •40Частный коэффициент корреляции
- •41Множественный коэффициент корреляции
- •42Линейное уравнение множественной регрессии
- •Криволинейная корреляция и регрессия
- •43Корреляционное отношение
- •44Свойства корреляционного отношения
- •45Ошибка репрезентативности корреляционного отношения
- •46Критерий линейности корреляции
- •Однофакторный дисперсионный анализ
- •47Сущность и метод дисперсионного анализа
- •47.1Результативный признак
- •47.2Фактор
- •47.3Градации факторов
- •47.4Градации комплекса
- •47.5Дисперсионный комплекс
- •47.6Статистические влияния
- •47.7Факториальное влияние
- •47.8Случайное влияние
- •47.9Общее влияние
- •48Однофакторный дисперсионный комплекс
- •Многофакторный дисперсионный анализ
- •49Многофакторный дисперсионный комплекс
- •50Преобразования
- •51Универсальное использование дисперсий
- •51.1Показатели силы влияний
- •51.2Ошибка репрезентативности основного показателя силы влияния
- •51.3Предельные значения показателей силы влияния
- •51.4Достоверность влияний
- •Классификация
- •52Дискриминантный анализ
- •52.1Постановка задачи, методы решения, ограничения
- •52.2Предположения и ограничения
- •52.3Алгоритм дискриминантного анализа
- •53Кластерный анализ
- •53.1Методы кластерного анализа
- •53.2Алгоритм кластерного анализа
- •Литература
- •Приложение. Основные формулы и определения
- •2 46019, Г. Гомель, ул. Советская, 104
Распределения параметров выборки
5.1 t – распределение Стьюдента
5.2 F-распределение Фишера–Снедекора
5.3 χ2–распределение
13t – распределение Стьюдента
Закон нормального распределения проявляется при числе признаков n > 20–30. Однако экспериментатор часто проводит ограниченное число измерений, основывает свои выводы на малых выборках. При небольшом числе наблюдений результаты обычно близки и редко появляются большие отклонения. Это легко объяснить законом нормального распределения, согласно которому вероятность появления малых отклонений больше, чем отклонений значительных. Так, вероятность отклонений, превышающих по абсолютной величине ±2σ, равна 0,05, или один случай на 20 измерений, а отклонений ± 3σ – 0,01, или один случай на 100.
Если же полевой опыт проводят, например, в 4 – 6 повторностях, то естественно ожидать, что среди показаний урожаев на параллельных делянках очень больших отклонений не будет. Поэтому стандартное отклонение , подсчитанное по малой выборке, в большинстве случаев будет меньше, чем по всей генеральной совокупности . Следовательно, в этих случаях полагаться на критерии нормального распределения в своих выводах нельзя.
С начала XX века в математической статистике стало разрабатываться новое направление, которое можно назвать статистикой малых выборок. Наибольшее практическое значение для экспериментальной работы имело открытое в 1908 г. английским статистиком и химиком В. Госсетом t–распределение, получившее название распределения Стьюдента (англ. стьюдент – студент, псевдоним В. Госсета).
Распределение t Стьюдента для выборочных средних определяется равенством:
(5.1)
Числитель формулы означает отклонение выборочной средней от средней всей совокупности , а знаменатель:
– является показателем, оценивающим величину стандартной ошибки средней выборочной совокупности.
Таким образом, величина t измеряется отклонением выборочной средней от средней совокупности , выраженным в долях ошибки выборки , принятой за единицу.
Максимумы частоты нормального и t-распределения совпадают, но форма кривой t-распределения всецело зависит от числа степеней свободы. При очень малых значениях степеней свободы она принимает вид плосковершинной кривой, причем площадь, отграниченная кривой, больше, чем при нормальном распределении, а при увеличении числа наблюдений (n > 30) распределение t приближается к нормальному и переходит в него при n = ∞.
На рисунке 1.1 представлено дифференциальное и интегральное распределение t-Стьюдента при 10 степенях свободы.
Рисунок 5.1 – Дифференциальное (слева) и интегральное (справа) распределение t–Стьюдента
Распределение t–Стьюдента имеет важное значение при работе с малыми выборками: позволяет определить доверительный интервал, накрывающий среднюю совокупности , и проверить ту или иную гипотезу относительно генеральной совокупности. При этом нет необходимости знать параметры совокупности и , достаточно иметь их оценки μ и σ для определенного объема выборки n.
13.1Проблема Беренса–Фишера
Проверка гипотезы о генеральных средних двух групп с нормальным распределением и неравными дисперсиями в математической статистике называется проблемой Беренса–Фишера и имеет в настоящее время только приближенные решения. Почему так важно требование равенства дисперсий в сравниваемых группах? Не вдаваясь в детали этой проблемы, отметим, что чем больше различаются между собой дисперсии и объемы выборок, тем сильнее отличается распределение "вычисляемого t-критерия" от распределения "t-критерия Стьюдента". При этом различную величину имеет как сам t-критерий, так и такой параметр этих распределений, как число степеней свободы. В свою очередь число степеней свободы сказывается на величине достигнутого (критического) уровня значимости (р < ...) определяемого для вычисленного значения t-критерия.
Пренебрежение исследователями, приведенными выше условиями допустимости использования t-критерия Стьюдента, приводит к существенному искажению результатов проверки гипотез о равенстве средних. Поэтому в работах, где проверка гипотез о равенстве двух средних производилась с помощью t-критерия Стьюдента, и нет упоминания критериев проверки нормальности распределения и равенства дисперсий, имеются основания предполагать некорректное использование авторами данного критерия, а стало быть, и сомнительность декларируемых ими выводов.
Другая частая ошибка – применение t–критерия Стьюдента для проверки гипотез о равенстве трех и более групповых средних. В этом случае необходимо применять так называемую общую линейную модель, реализованную в процедуре однофакторного дисперсионного анализа с фиксированными эффектами.
Рассмотрим подробнее особенности использования t–критерия Стьюдента. Наиболее часто t–критерий используется в двух случаях. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t–критерий). В этом случае есть контрольная группа и опытная группа, состоящая из разных объектов, количество которых в группах может быть различно. Во втором же случае используется так называемый парный t–критерий, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних. Поэтому эти выборки называют зависимыми, связанными. Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых животных после облучения определенной дозой излучения. В обоих случаях должно выполняться требование нормальности распределения исследуемого признака в каждой из сравниваемых групп. Доминирование t–критерия Стьюдента в подавляющем большинстве работ отражает два важных аспекта.
Во-первых, это свидетельство того, что авторы, использующие данный критерий, не имеют необходимых знаний относительно ограничений присущих данному критерию.
Во-вторых, это говорит также и о том, что этим авторам неизвестны какие-либо альтернативы данному критерию, либо они не в состоянии ими самостоятельно воспользоваться. Можно без преувеличения сказать, что в настоящее время бездумное применение t–критерия Стьюдента в большинстве биологических работ приносит больше вреда, нежели пользы.
14F-распределение Фишера–Снедекора
Если из нормально распределенной совокупности взять две независимые выборки объемом n1 и n2 и подсчитать дисперсии и со степенями свободы ν1 = n –1 и ν2 = n2–1, то можно определить отношение дисперсий:
(5.2)
Отношение дисперсий берут таким, чтобы в числителе была большая дисперсия, и поэтому F ≥ 1.
Распределение F зависит только от числа степеней свободы ν1 и ν2 (закон F-распределения открыл Р.А. Фи шер). Когда две сравниваемые выборки являются случайными независимыми из общей совокупности с генеральной средней , то фактическое значение F не выйдет за определенные пределы и не превысит критическое для данных ν1 и ν2 теоретическое значение критерия F (Fфакт < Fтеор). Если генеральные параметры сравниваемых групп различны, то Fфакт > Fтеор. Теоретические значения F для 5%-ного и 1%-ного уровня значимости даны в таблице, где табулированы только правые критические точки для F ≥ 1, так как всегда принято находить отношение большей дисперсии к меньшей.
Кривые, полученные из функции распределения для всех возможных значений F, особенно при небольшом числе наблюдений, имеют асимметричную форму – длинный «хвост» больших значений и большую концентрацию малых величин F (рисунок 5.2).
Рисунок 5.2 – Дифференциальное (слева) и интегральное (справа) F-распределение Фишера–Снедекора
Отметим, что t–распределение Стьюдента является частным случаем F–распределения при числе степеней свободы ν1 = 1 и ν2 = ν, т. е. равно числу степеней свободы для распределения t. В этом случае наблюдается следующее соотношение между F и t:
(5.3)