- •Основные условные обозначения в математической статистике
- •Содержание
- •Введение
- •Основы теории вероятностей
- •1Предмет и метод математической статистики
- •2Понятие случайного события
- •3Вероятность случайного события
- •4Основные теоремы теории вероятностей
- •4.1Сложение вероятностей
- •4.2Умножение вероятностей
- •4.3Вычисление вероятностей
- •Случайные переменные
- •5Понятие случайной переменной
- •5.1Дискретные случайные переменные
- •5.2Непрерывные случайные переменные
- •6Математическое ожидание и дисперсия
- •7Моменты
- •Дискретные распределения
- •8Биномиальное распределение и измерение вероятностей
- •9Распределение редких событий (Пуассона)
- •Основные модели теоретических распределений
- •10Прямоугольное (равномерное) распределение
- •11Нормальное распределение
- •12Логарифмически нормальное распределение
- •Распределения параметров выборки
- •13.1Проблема Беренса–Фишера
- •15Χ2–распределение
- •Основы математической статистики
- •16Средние величины
- •16.1Общие свойства средних величин
- •17Средняя арифметическая
- •17.1Средний ранг (непараметрическая средняя)
- •17.2Взвешенная средняя арифметическая
- •17.3Средняя квадратическая
- •17.4Мода
- •17.5Медиана
- •18Средняя геометрическая
- •19Средняя гармоническая
- •Разнообразие значений признака
- •20Стандартное (среднеквадратическое) отклонение
- •20.1Число степеней свободы
- •20.2Коэффициент вариации
- •20.3Лимиты и размах
- •20.4Приближенные значения μ и
- •20.5Нормированное отклонение
- •21Проверка выпадов (артефактов)
- •22Средняя и сигма суммарной группы
- •23Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
- •Графическое представление распределений
- •24Вариационный ряд
- •25Гистограмма и вариационная кривая
- •26Кумулята
- •27Достоверность различия распределений
- •27.1Критерий χ2 (хи квадрат)
- •27.2Критерий λ (лямбда)
- •27.3Критерий по асимметрии и эксцессу
- •Нормальное распределение
- •28Генеральная совокупность и выборка
- •29Репрезентативность
- •30Ошибки репрезентативности и другие ошибки исследований
- •31Доверительные границы
- •Оценка генеральных параметров
- •32Общий порядок оценки
- •32.1Оценка средней арифметической
- •32.2Оценка средней разности
- •32.3Недостоверная и достоверная оценка средней разности
- •32.4Оценка разности генеральных средних
- •33Критерий достоверности разности
- •34Репрезентативность при изучении качественных признаков
- •35Достоверность разности долей
- •Парная корреляция
- •36Коэффициент корреляции
- •37Ошибка коэффициента корреляции
- •37.1Достоверность выборочного коэффициента корреляции
- •37.2Доверительные границы коэффициента корреляции
- •37.3Достоверность разности двух коэффициентов корреляции
- •38Уравнение прямолинейной регрессии
- •39Ошибки элементов уравнения прямолинейной регрессии
- •Частная и множественная линейные корреляции и регрессии
- •40Частный коэффициент корреляции
- •41Множественный коэффициент корреляции
- •42Линейное уравнение множественной регрессии
- •Криволинейная корреляция и регрессия
- •43Корреляционное отношение
- •44Свойства корреляционного отношения
- •45Ошибка репрезентативности корреляционного отношения
- •46Критерий линейности корреляции
- •Однофакторный дисперсионный анализ
- •47Сущность и метод дисперсионного анализа
- •47.1Результативный признак
- •47.2Фактор
- •47.3Градации факторов
- •47.4Градации комплекса
- •47.5Дисперсионный комплекс
- •47.6Статистические влияния
- •47.7Факториальное влияние
- •47.8Случайное влияние
- •47.9Общее влияние
- •48Однофакторный дисперсионный комплекс
- •Многофакторный дисперсионный анализ
- •49Многофакторный дисперсионный комплекс
- •50Преобразования
- •51Универсальное использование дисперсий
- •51.1Показатели силы влияний
- •51.2Ошибка репрезентативности основного показателя силы влияния
- •51.3Предельные значения показателей силы влияния
- •51.4Достоверность влияний
- •Классификация
- •52Дискриминантный анализ
- •52.1Постановка задачи, методы решения, ограничения
- •52.2Предположения и ограничения
- •52.3Алгоритм дискриминантного анализа
- •53Кластерный анализ
- •53.1Методы кластерного анализа
- •53.2Алгоритм кластерного анализа
- •Литература
- •Приложение. Основные формулы и определения
- •2 46019, Г. Гомель, ул. Советская, 104
Основные модели теоретических распределений
4.1 Прямоугольное (равномерное) распределение
4.2 Нормальное распределение
4.3 Логарифмически нормальное распределение
10Прямоугольное (равномерное) распределение
Прямоугольное (равномерное) распределение — простейший тип непрерывных распределений. Если случайная переменная X может принимать любое действительное значение в интервале (а, b), где а и b – действительные числа, и если каждому значению случайной переменной соответствует одинаковая плотность вероятности, то переменная X имеет прямоугольное распределение. Иногда пользуются термином «равномерное распределение».
Из приведенного определения следует, что плотность распределения вероятностей этой случайной переменной должна быть постоянной, т. е. что в интервале (a, b) f(x) = с. Отсюда, а также из условия, что интеграл от функции f(x), взятый в интервале (а, b), должен равняться единице, нетрудно найти функцию плотности вероятности f(x). Имеем:
(4.1)
откуда cb – са = 1 и, следовательно, получим . Таким образом, функция плотности вероятности для прямоугольного распределения:
для a ≤ x ≥ b. (4.2)
Для х > b и х < а плотность равняется нулю. Нетрудно вычислить математическое ожидание и дисперсию рассматриваемой случайной переменной. Имеем:
(4.3)
(4.4)
Отсюда находим, что дисперсия D2(X) равняется:
(4.5)
Прямоугольное распределение находит широкое применение в математической статистике. Оно имеет основополагающее значение для так называемых непараметрических методов – одного из новейших разделов статистики, находящего все более широкое применение. Понятием прямоугольного распределения иногда пользуются и в теории статистических оценок – в том разделе статистики, где изучаются методы построения выводов о значениях параметров в генеральной совокупности на основании случайной выборки. В некоторых теориях статистического вывода за исходный пункт принимается правило: что, если нам ничего неизвестно о значении оцениваемого параметра, то следует принять, что каждое его значение равновозможно. Это ведет к истолкованию оцениваемого параметра как случайной переменной, характеризующейся прямоугольным распределением.
11Нормальное распределение
Нормальное распределение играет основную роль в математической статистике. Это ни в малейшей степени не является случайным: в объективной действительности весьма часто встречаются различные признаки, значения которых распределяются по нормальному закону.
Если число дискретных событий возрастает, график на рисунке 3.2, представляющий разложение бинома (p+q)n, все более приближается к плавной кривой. Это приближение имеет место и для p = q, и для p q. В последнем случае скошенность кривой при возрастании n уменьшается. При приближении n к бесконечности график кривой приближается к симметричной кривой. Пределом такого приближения биномиального распределения является нормальное распределение, выраженное формулой и графически изображаемое на рисунке 4.1.
В этом качестве, а именно в качестве непрерывной формы для предела биномиального распределения, нормальное распределение было открыто для р = q в 1733 г. А. Муавром (Англия). Обобщение его для p q сделано П. Лапласом (Франция) и К. Гауссом (Германия) в начале XIX в. Это открытие привело во второй половине XIX века к особому подчеркиванию значения нормального «закона» как модели, которой следуют распределения результатов наблюдений во всех естественных явлениях. Английский ученый К. Пирсон в начале XX в. показал, что нормальное распределение является одним из многих типов распределений, имеющихся в природе. Значение нормального распределения вследствие этого снизилось в сфере наблюдений, но возросло в теоретическом отношении, особенно в области теории выборок.
Рисунок 4.1 – Нормальное распределение
Уравнение нормальной кривой выражает зависимость теоретических численностей f(x) или у от значений x – непрерывно распределяющейся случайной величины. Оно пишется в различных формах.
Выражение, являющееся основной формой, относится к кривой с площадью, равной единице:
(4.6)
В этом уравнении f(x) – теоретические численности, выраженные в долях единицы, или плотности вероятности случайного события x; – квадратическое отклонение данного нормального распределения; π и е известные константы, π = 3,1426, е = 2,7183, – отклонение случайно распределенной величины X от средней арифметической , являющейся центром распределения величины X.
Вычислим математическое ожидание нормальной случайной переменной. Согласно определению (2.5):
(4.7)
Для вычисления этого интеграла введем новую переменную:
, . Получим:
(4.8)
Интегрируя по частям, находим, что первый из приведенных выше интегралов равняется нулю. Далее, из математического анализа известно, что интеграл функции , взятый в границах (–∞, + ∞), равняется . Таким образом, получаем:
(4.9)
Следовательно, параметр μ есть математическое ожидание нормальной случайной переменной, плотность вероятности которой дается формулой (4.6).
Для вычисления дисперсии предварительно точно так же находим значение Е (X2):
. (4.10)
Применив ту же подстановку, что при вычислении E(X), получим:
(4.11)
Интегрируя по частям, находим, что первый из интегралов в правой части формулы (4.11) равняется σ2, второй интеграл – нулю, а третий интеграл имеет значение μ2. Таким образом,
, откуда
Итак, дисперсия нормальной случайной переменной равняется σ2, а ее среднее стандартное отклонение – σ.
Для удобства расчетов отклонение переменной X от обычно выражают в единицах среднего стандартного отклонения .
Выражение называют нормированным отклонением и обозначают его буквой .
Тогда уравнение кривой нормального распределения в нормированной форме будет:
(4.12)
Оно выражает зависимость между вероятностью y и нормированным отклонением . Средняя такого распределения равна нулю, а квадратическое отклонение = 1. Графически кривая нормального распределения изображена на рисунке 4.1. Максимального значения у достигает в начале координат, т. е. в точке, соответствующей центру распределения, где Х = = 0, = 1.
Максимальная ордината, обозначим ее y0 = 1/2 = 0,39894. В других точках, т. е. при ≠ 0, значения ординат y могут быть вычислены на основе формулы (4.12) путем логарифмирования.
На основе формулы (4.12) и данного анализа видно, что величина ординаты кривой нормального распределения может рассматриваться как функция нормированного отклонения .
Кривая, показанная на рисунке 4.1, показывает, как плотности вероятностей (ординаты) растут до максимума в точке средней, т. е. в точке 0 и затем симметрично снижаются для значений у выше средней. Причем для X < – 3 (или < –3) и для X > +3 (или > 3) ординаты уже незначительно отличаются от нуля. Это означает, что наиболее вероятны те значения X, которые близки к . По мере удаления от значения X становятся все менее вероятными. Причем одинаковые по абсолютному значению, но противоположные по знаку отклонения значений переменной Х от равновероятны.
В точках – и + кривая нормального распределения или кривая плотности нормального распределения вероятностей имеет перегибы.
При определении ординат для какого-либо конкретного частного распределения ординаты, полученные по формуле (4.12), умножают на N/σ, где N – общий объем численностей, σ – выборочное квадратическое отклонение в единицах измерения распределенной величины X.
При изучении распределений как теоретической базы статистических заключений наибольший интерес представляет площадь под нормальной кривой. Эту площадь можно представить как интеграл от функции (4.12). Если интегрирование провести от начала координат, т. е. от нуля до любого значения, получим значение площади, заключенной между у0 и значением у, соответствующим избранному τ. Математически функция площади от нормированного отклонения (обозначим ее F() при указанных пределах имеет выражение:
(4.13)
При таком предположении и нормальном распределении в совокупности, выражаемом формулой 4.13, можно определить вероятности встретить любые значения исследуемых объектов, т. е получить сумму вероятностей по 4.13.
Этот интеграл относится к разряду неберущихся. Поэтому в литературе приведена четырехзначная таблица площади под нормальной кривой в долях единицы, за которую принята вся площадь под кривой, либо при расчетах можно воспользоваться следующей аппроксимацией:
F(t) = 0,0164 τ3 – 0,1564 τ2 + 0,4917 τ – 0,0119
Пример
Найдем теоретическую относительную численность, т. е. вероятность объектов, имеющих диаметр от Х1 = 12 до Х2 = 22 см, μ = 30 см, σ = 6 см. Стандартизованные отклонения двух указанных значений X будут:
τ1= (X1–μ)/σ = (12 – 30)/6 = –3, τ2 = (X2 – μ)/σ = (22 – 30)/6 = –1,33.
По таблице или представленной формуле F(–3) = 0,4986, F(–1,33) = 0,4080. Отметим, что знак τ не имеет значения.
Разность F(τ1) – F(τ2) = 0,0904 означает вероятность встретить объекты указанного интервала X в общей совокупности, т. е. 9 объектов из 100.
Установим, пользуясь этим приемом, вероятности трех важных событий в теории выборок:
а) нормальная случайная переменная примет значение в интервале (μ – σ, μ + σ);
б) переменная примет значение в интервале (μ – 2σ, μ + 2σ);
в) она примет значение в интервале (–3σ, μ + 3σ).
Так как нормальная совокупность характеризуется μ = 0 и σ = 1, значения нормированного отклонения τ будут:
для а) –1, +1;
для б) –2; +2;
для в) –3, +3.
По таблице или формуле находим F(+1) = 0,3413, F(–1) = 0,3413, откуда вероятность события а), равная F(+l) + F(–l), составит 0,6826.
F(+2) = 0,4772, F(–2) = 0,4772, вероятность события б) равна 0,9544.
F(+3) = 0,4986, F(–3) = 0,4986, вероятность события в) равна 0,9972.
Эти результаты дают возможность утверждать, что в случае нормального распределения N (0; 1) 68% наблюдаемых значений отклоняются от среднего значения μ не более чем на величину стандартного отклонения σ, 95% значений не выйдут из пределов μ ± 2σ и практически все значения уместятся в пределы μ ± 3σ. Вероятность отклонения за пределы 3σ равна 0,0026 ≈ 0,003, т. е. такое событие наступит только в среднем в 3 случаях из 1000 испытаний.