Министерство образования и науки Российской Федерации Сибирский федеральный университет
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Методы математической статистики и их реализация в среде Mathcad.
Учебно-методическое пособие
Красноярск
СФУ
2012
УДК 519.2(07) B14
Вайнштейн И.И.,Кустицкая Т.А.
Теория вероятностей и математическая статистика. Методы математической статистики и их реализация в среде Mathcad: учебно-методическое пособие / И.И. Вайнштейн, Т.А. Кустицкая. - Красноярск: Сиб. федер. ун-т, 2012. - 88 с.
Пособие содержит краткие теоретические сведения по математической статистике, задания для лабораторных работ, руководство по выполнению лабораторных работ в среде Mathcad, примеры расчетов и необходимые справочные данные.
Предназначено для студентов, обучающихся по направлениям 090900.62, 220400.62,
220700.62, 230400.62, 231300.62.
УДК 519.2(07) В14
c Сибирский федеральный университет, 2012
Предисловие
Данное пособие предназначено для обеспечения лабораторных занятий и самостоятельной работы студентов в рамках курса "Теория вероятностей и математическая статистика" и "Теория вероятностей, математическая статистика и случайные процессы".
Пособие состоит из восьми разделов. Первый раздел посвящен задачам описательной статистики, второй и третий раздел посвящены задачам оценивания, разделы с четвертого по шестой - проверке статистических гипотез, в седьмом и восьмом разделах рассматриваются методы исследования зависимостей в экспериментальных данных.
В начале каждого раздела излагаются теоретические сведения, при необходимости описываются особенности программной реализации того или иного метода. Далее излагаются примеры решения подобных задач в пакете Mathcad, сопровождаемые подробными комментариями. В последнем подразделе приводятся варианты заданий для лабораторной работы.
Предполагается, что студенты знают основы теории вероятностей и имеют начальное представление о работе в математических пакетах. В данном пособии принципы программной реализации изложены на примере пакета Mathcad, однако все предлагаемые лабораторные работы могут быть выполнены и в других математических пакетах (Maple, Mathlab и др.).
Пособие ориентировано прежде всего на студентов, обучающихся по специальностями "Прикладная математика" , "Информационная безопасность" и "Компьютерная безопасность" , но может быть использовано и для подготовки студентов, специализирующихся в области информационных систем и технологий, управления в технический системах, автоматизации технологических процессов.
3
1. Обработка статистических данных
1.1Первичная обработка статистических данных, выборочные характеристики
Основные понятия выборочного метода
Пусть G - эксперимент, связанный со случайной величиной X, имеющей распределение F . Рассмотрим n независимых повторений эксперимента G и обозначим x1; x2 : : : ; xn совокупность полученных наблюдений. Вектор x = (x1; x2; : : : ; xn) называется выборкой объема n из совокупности с распределением F . Символьно это обозначается x 2 F .
Рассмотрим случайную величину Z, дискретное распределение которой сосредоточено в точках x1; x2; : : : ; xn, и для которой вероятность значения xi(i = 1; 2 : : : ; n) равна 1=n. Соответствующую функцию распределения Fn можно записать так:
|
xXi |
|
ny |
|
||
Fn(y) = |
|
1 |
|
= |
; где ny число элементов выборки, меньших y: |
|
|
n |
n |
||||
|
<y |
|
|
|
Распределение случайной величины Z называется эмпирическим распределением, построенным по выборке x, а функция Fn - эмпирической функцией распределения.
Если элементы выборки x упорядочить по возрастанию, то получится последовательность x(1) x(2) x(n); которая называется вариационным рядом. По нему можно построить эмпирическую функцию распределения
8
0;
>
>
<k Fn(y) = >n;
>
:1;
y x(1);
x(k) < y x(k+1);
y > x(n)
При возрастании объема выборки эмпирическая функция распределения неограниченно приближается к функции распределения исходного распределения F . Об этом гласят следующие теоремы:
4
Теорема 1.1 Пусть x = (x1; : : : ; xn) - выборка объема n из неизвестного распределения с функцией распределения F . Пусть Fn - эмпирическая функция распределения, построенная по этой выборке. Тогда 8y 2 R
P
Fn(y) ! F (y) при n ! 1:
Теорема 1.2 (Гливенко-Кантелли) Пусть x = (x1; : : : ; xn) - выборка объема n из неизвестного распределения с функцией распределения F . Пусть Fn - эмпирическая функция распределения, построенная по этой выборке. Тогда
P
sup jFn(y) F (y)j ! 0 при n ! 1:
y2R
В этих теоремах имеет место сходимость по вероятности.
Гистограмма и полигон
Разделим область выборочных данных на интервалы 1; 2; : : : ; k. Обозначим за nj (j = 1; 2; : : : ; k) число элементов выборки, попавших в интервал j.
На каждом из интервалов j строим прямоугольник, площадь которого пропорциональна nj . Общая площадь всех прямоугольников должна быть равна единице.
Пусть lj - длина интервала j. Высота hj прямоугольника над ин-
тервалом j равна
hj = nj : nlj
Верхний контур полученной фигуры, состоящий из горизонтальных отрезков называется гистограммой. Имеет место следующая теорема о приближении гистограммы к функции плотности распределения:
Теорема 1.3 Если плотность распределения элементов выборки является непрерывной функцией, то при неограниченном увеличении числа
k(n)
n ! 0) имеет место сходимость по вероятности гистограммы к плотности распределения.
Если гистограмму модифицировать следующим образом - соединить отрезками прямых середины горизонтальных отрезков, то полученная ломанная является графиком непрерывной функции и называется полигоном частот. Здесь середины крайних отрезков (соответствующие1 и k) соединяются с осью абсцисс так, чтобы по-прежнему суммарная площадь под графиком равнялась единице.
5
Выборочные характеристики
Выборочным моментом порядка k называется величина
1 |
|
n |
|
|
|
|
Xi |
ak = |
|
|
xik: |
n |
=1 |
||
|
|
|
Выборочный центральный момент порядка k равен
1 |
n |
|
|
|
Xi |
ako = |
n |
(xi ak)k: |
|
|
=1 |
Момент a1 называется выборочным средним и обозначается
|
1 |
n |
|
|
Xi |
||
X = |
|
Xi: |
|
n |
|||
|
|
|
=1 |
Момент ao2 называется выборочной дисперсией и обозначается
1 |
|
n |
|
|
||
|
Xi |
|||||
|
|
|
||||
S2 = n |
||||||
(xi X)2: |
||||||
|
|
|
=1 |
|
|
Также большую роль в математической статистике играет несмещенная выборочная дисперсия, которая вычисляется по формуле
|
|
1 |
|
n |
||
|
|
|
|
|
|
|
|
|
|
Xi |
|||
|
|
|
|
|||
S 2 = n |
|
1 |
||||
|
(xi X)2: |
|||||
|
|
|
|
=1 |
|
|
Рассмотренные характеристики являются выборочными аналогами неизвестных истинных моментов распределения.
1.2Обработка данных в Mathcad
В среде Mathcad предусмотрена возможность генерации последовательности случайных чисел с соответствующим законом распределения.
Для реализации этой возможности служит класс встроенных функций с составными названиями вида r*(M, par), где буква r означает, что функция генерирует вектор, * задает тип распределения, M - объем выборки, par - список параметров распределения. Таким образом, функция r*(M, par) возвращает вектор M независимых случайных чисел, каждое из которых имеет соответствующее распределение.
6
Например, с помощью функции rbinom(n, k,p) генерируется выборка объема n из биномиального распределения Bpk.
Другие статистические функции строятся с помощью конструкций: d*(x, par) - плотность вероятности (x - значение случайной величины); p*(x, par) - функция распределения (x - значение случайной величины); q*(p, par) - квантиль распределения порядка p.
В табл. 1.1 перечислены некоторые типы распределений, реализованные в Mathcad. Звездочкой * обозначена недостающая первая буква встроенных функций.
Таблица 1.1. Обозначения основных типов распределений в Mathcad
*beta(x; s1; s2) - бета распределение (0 < x < 1, s1; s2 - параметры); *binom (n; k; p) - биномиальное распределение (k 2 Z, 0 n k,
0 p 1 - параметр, равный вероятности единичного испытания ); *chisq(x; d) - 2-распределение (d > 0) - число степеней свободы; *exp(x; r) - показательное распределение (r > 0);
*F(x; d1; d2) - распределение Фишера (d1; d2 > 0 - числа степеней свободы);
*gamma(x; s) - гамма-распределение (s > 0- параметр формы); *geom(k; p) - геометрическое распределение (0 p 1 - параметр, равный вероятности успеха единичного испытания);
*lnorm(x; ; ) - логарифмически нормальное распределение ( - натуральный логарифм математического ожидания, > 0 - натуральный логарифм среднеквадратичного отклонения);
*norm(x; ; ) - нормальное распределение ( - математическое ожидание, > 0 - среднеквадратичное отклонение);
*pois(k; ) - распределение Пуассона ( > 0 - параметр);
*t(x; d) - распределение Стьюдента (d > 0- число степеней свободы); *unif(x; a; b) - равномерное распределение (a < b - границы интервала)
Для построения графиков функции распределения, плотности распределения и гистограммы мы будем пользоваться шаблоном двухмерных графиков. На панели инструментов Graph (График) нажимаем кнопку X-Y Plot(X-Y (декартов) график), в местозаполнитель вдоль оси абсцисс вводим имя агрумента функции, вдоль оси ординат - имя функции. Саму функцию нужно определить выше в тексте программы.
По умолчанию график строится в виде линии. При построении гистограммы необходимо поменять стиль отображения рядов данных. Для этого в диалоговом окне Formatting Currently Selected Graph (Форматирование) на вкладке Traces (Графики) нужно установить тип списка bar (Столбцы).
7
Генерируется выборка объема 2000 из распределения N0;1. Задается число столбцов в гистограмме.
Определяются границы области значений случайной величины и вычисляется длина интервалов
группировки.
Формируется вектор, компоненты которогоконцы интервалов группировки.
Вычисляется высота прямоугольника, построенного над j-м интервалом группировки.
Функция плотности распределения N0;1.
Рис. 1.1. Построение гистограммы
8
На рис 1.1 приведен пример построения гистограммы для выборки объема n = 2000 из нормального распределения N0;1. В данном случае область выборочных данных была разбита на 20 равных интервалов.
1.3Задание к лабораторной работе 1
Сгенерировать выборку из N элементов, имеющих указанное в вашем варианте распределение (основные характеристики распределения в Приложении).
1.Вычислить выборочные моменты и центральные выборочные моменты до 3-го порядка включительно.
2.Составить эмпирическую функцию распределения. В одной системе координат построить график эмпирической и теоретической функций распределения. Увеличивая объем выборки с N до 2N, 3N, убедиться
спомощью построенного графика в стремлении эмпирической функции распределения к теоретической.
3.В одной системе координат построить гистограмму и теоретическую функцию плотности распределения (если она является непрерывной), сравнить полученные графики и оценить, действительно ли гистограмма является приближением функции плотности вероятности.
Указание: Из встроенных статистических функций разрешено пользоваться только функциям, генерирующими выборки из распределений.
Варианты заданий
1.x - выборка из биномиального распределения Bpk, где p = 0:7; k = 50.
2.x - выборка из равномерного распределения U2;4.
3.x - выборка из показательного распределения E , где = 2.
4.x - выборка из распределения Фишера Fk;m, где k = 2; m = 10.
5.x - выборка из нормального распределения Na; 2 , где a = 2, = 1:5.
6.x - выборка из геометрического распределения Gp с параметром p = 0:75.
7.x - выборка из распределения Стьюдента Tk, где k = 3.
8.x - выборка из распределения Пуассона , где = 3.
10.x - выборка из распределения 2k, где k = 2.
11.x - выборка из гамма-распределения 1; , где = 5.
12.x - выборка из равномерного распределения U 5;2.
13.x - выборка из распределения Фишера Fk;m, где параметрами k = 4; m = 5.
14.x - выборка из биномиального распределения Bpn, где p = 0:3; n = 400.
9
15.x - выборка из гамма-распределения 1; , где = 3.
16.x - выборка из нормального распределения Na; 2 , где a = 5,
= 2.
17.x - выборка из распределения Фишера Fk;m, где k = 6; m = 4.
18.x - выборка из распределения Стьюдента Tk, где k = 10.
19.x - выборка из логнормального распределения с параметрами a = 5; = 3.
20.x - выборка из бета-распределения m;n, где m = 5; n = 5.
21.x - выборка из равномерного распределения U0;10.
22.x - выборка из нормального распределения Na; 2 , где a = 1, = 1.
23.x - выборка из показательного распределения E , где = 5.
24.x - выборка из распределения Пуассона , где = 0:7.
25.x - выборка из бета-распределения m;n, где m = 2; n = 3.
10