- •Тема 1. Элементы линейной алгебры. Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Тема 2. Основы математического анализа
- •2.1. Функции. Предел и непрерывность функции. Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •2.2. Производная функции. Приложения производных Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Тема 3. Дифференциальные уравнения Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Тема 4. Ряды Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Тема 5. Исследование операций Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •1. Ресурсная задача.
- •2. Транспортная задача.
- •Тема 6. Теория вероятностей Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Тема 7. Математическая статистика Теоретические вопросы
- •Методические указания и примеры выполнения заданий
- •Индивидуальные задания
- •Приложения
- •Критические точки распределения Стьюдента
- •Критические точки распределения
- •Литература
- •Оглавление
Тема 7. Математическая статистика Теоретические вопросы
1. Перечислите основные задачи математической статистики.
2. Что такое статистическая гипотеза и какие вы знаете этапы её проверки?
3. Дайте понятие генеральная совокупности, выборки, статистики.
4. Какие точечные оценки вы знаете?
5. Выборочные оценки математического ожидания и дисперсии, выборочная оценка вероятности, выборочная оценка «доли», выборочная оценка линейного коэффициента корреляции Пирсона
5. В чем заключаются свойства несмещенности, состоятельности, эффективности точечных оценок?
6. Интервальные оценки. Построение доверительных интервалов для параметров. Приведите примеры (построение доверительного интервала для «доли»).
7. Что называется статистическим критерием?
8.Расшифруйте понятия: выборка, уровень значимости, критическая область гипотезы.
9. Приведите примеры (проверка гипотез о виде закона распределения, о параметрах закона распределения).
Методические указания и примеры выполнения заданий
Пример 1.
Дана выборка значений некоторого непрерывного распределенного количественного признака Х, объем выборки n = 50:
-2,25 |
0,38 |
-1,31 |
-1,05 |
-0,07 |
-4,17 |
3,69 |
-1,47 |
2,34 |
-1,22 |
0,42 |
-3,24 |
0,95 |
-0,68 |
0,15 |
1,75 |
0,71 |
-3,37 |
0,95 |
0,99 |
-3,1 |
-2,79 |
-1,15 |
2,26 |
0,21 |
1,37 |
-1,62 |
1,41 |
3,95 |
-1,05 |
-0,03 |
-2,49 |
-0,52 |
2,91 |
-5,71 |
0,91 |
-3,78 |
-0,14 |
-0,82 |
-2,4 |
3,78 |
1,17 |
-1,79 |
0,16 |
2,02 |
-3,88 |
0,64 |
-1,08 |
3,18 |
-0,84 |
Требуется:
1) Построить интервальный ряд, определив количество интервалов по формуле Стерджеса, рассчитать частоты, относительные частоты (частости), накопленные частоты, накопленные частости.
2) Построить гистограмму, кумуляту.
3) Найти средние величины: выборочное среднее, медиану, моду.
4) Найти показатели вариации: размах, среднее линейное отклонение, выборочную дисперсию, выборочное среднее квадратическое отклонение, исправленную дисперсию и исправленное среднее квадратическое отклонение, коэффициент вариации.
Решение
1) Построим интервальный ряд: .
Согласно формуле Стерджеса рекомендуемое число интервалов:
Т.к. n=50, то . Начало первого интервала Конец последнего, седьмого интервала(минимальное и максимальное значение признака округлили в соответствующую сторону с точностью до десятых: для нижней границы – до десятых вниз, для верхней границы – до десятых вверх).
Длина каждого интервала будет равна .
Подсчитаем число вариант, попадающих в каждый интервал, получим вариационный ряд:
[-5.8; -4.4) |
[-4.4; -3) |
[-3; -1.6) |
[-1.6; -0.2) |
[-0.2; 1.2) |
[1.2; 2.6) |
[2.6; 4) | |
1 |
6 |
6 |
11 |
15 |
6 |
5 |
Разделив частоты на объем выборки найдем относительные частоты (частости): и запишем вариационный ряд с частостями и накопленными частотами и частостями (накопленные частоты подсчитывали как количество вариант, значения которых меньше правой границы каждого интервала).
Получаем:
[-5.8; -4.4) |
[-4.4; -3) |
[-3; -1.6) |
[-1.6; -0.2) |
[-0.2; 1.2) |
[1.2; 2.6) |
[2.6; 4) | |
1 |
6 |
6 |
11 |
15 |
6 |
5 | |
0,02 |
0,12 |
0,12 |
0,22 |
0,3 |
0,12 |
0,1 | |
1 |
7 |
13 |
24 |
39 |
45 |
50 | |
0,02 |
0,14 |
0,26 |
0,48 |
0,78 |
0,9 |
1 |
2) Построим гистограмму частот в MS Excel:
Построим кумуляту для интервального ряда – ломанную, которая начинается с точки, абсцисса которой равна началу первого интервала, а ордината – нулю; другие точки этой ломанной соответствуют концам интервалов и накопленным частотам. Воспользуемся средствами MS Excel:
3) Найдем средние величины.
Среднее выборочное:
, где - середины интервалов.
Найдем медиану интервального ряда – значение признака, приходящегося на середину ранжированного ряда наблюдений. Сначала определяем интервал медианы – первый интервал, в котором накопленная частота окажется больше половины объема выборки, т.е. больше 25.
Таким интервалом в нашем случае является [-0,2; 1,2].
Найдем моду интервального ряда – значение признака, которому соответствует наибольшая частота. Сначала определяем интервал моды – интервал с наибольшей частотой: [-0.2; 1.2].
4) Найдем показатели вариации.
Размах:
Среднее линейное отклонение:
, где - середины интервалов,
Выборочная дисперсия:
Выборочное среднее квадратическое отклонение:
Коэффициент вариации:
Рассчитанная величина свидетельствует о неоднородности совокупности, т.к. однородной совокупность считается, если коэффициент вариации меньше 33% (для распределений близких к нормальному). Такой результат означает, что в исследуемой совокупности сильна вариация признаков по отношению к средней величине.
Исправленные выборочная дисперсия и среднее квадратическое отклонение:
Пример 2. Имеются выборочные данные социологических опросов о динамике предвыборных рейтингов некоторой политической партии (в процентах) в выбранном регионе страны за предыдущие 10 недель:
А |
9 |
14 |
14 |
8 |
15 |
17 |
17 |
10 |
14 |
22 |
Найти доверительные интервалы для выборочных оценок «истинных» рейтингов данной политической партии в указанном регионе (среднего значения , дисперсиии стандартного отклонениягенеральной совокупности) при доверительной вероятности.
Решение. Составим ряд распределения и найдем среднее значение , дисперсиюи стандартное отклонениеS.
x |
8 |
9 |
10 |
14 |
15 |
17 |
22 |
ni |
1 |
1 |
1 |
3 |
1 |
2 |
1 |
;
Из таблицы распределения Стьюдента найдем , а из таблицы- распределения паруи, такую что, т. е,.
,
- доверительный интервал для среднего значения.
Доверительный интервал для дисперсии:
;
.
Пример 3. Исходные данные
По 10 странам Западной Европы имеются следующие данные:
Х – доля расходов домашних хозяйств на конечное потребление, % к ВВП;
У – индекс развития человеческого потенциала, %.
Признаки Х и У имеют нормальный закон распределения.
Х |
57 |
67 |
78 |
64 |
83 |
75 |
88 |
61 |
71 |
82 |
У |
0,71 |
0,80 |
0,95 |
0,77 |
0,95 |
0,89 |
0,99 |
0,80 |
0,86 |
0,95 |
1. Рассчитайте оценки a, b параметров уравнения парной линейной регрессии.
2. Оцените тесноту связи между признаками с помощью выборочного коэффициента корреляции. Проверьте значимость коэффициента корреляции (α = 0,05).
4. Рассчитайте выборочный коэффициент детерминации. Сделайте вывод.
Решение.
1. Рассчитаем оценки параметров линейной модели методом наименьших квадратов
y = a + bx
№ |
хi |
уi |
хi2 |
хi уi |
уi2 |
ŷi |
(уi - ŷi)2 |
(ус - ŷi)2 |
(уi - ус )2 |
(хi – хс)2 |
1 |
57 |
0,71 |
3249 |
40,47 |
0,5041 |
0,728 |
0,000324 |
0,01932 |
0,025 |
243,36 |
2 |
67 |
0,80 |
4489 |
53,6 |
0,64 |
0,817 |
0,000289 |
0,0025 |
0,004 |
31,36 |
3 |
78 |
0,95 |
6084 |
74,1 |
0,9025 |
0,9151 |
0,00122 |
0,0023 |
0,007 |
29,16 |
4 |
64 |
0,77 |
4096 |
49,28 |
0,5929 |
0,79 |
0,0004 |
0,00593 |
0,009 |
73,96 |
5 |
83 |
0,95 |
6889 |
78,85 |
0,9025 |
0,96 |
0,0001 |
0,00865 |
0,007 |
108,16 |
6 |
75 |
0,89 |
5625 |
66,75 |
0,7921 |
0,888 |
0,000004 |
0,00044 |
0,001 |
5,76 |
7 |
88 |
0,99 |
7744 |
87,12 |
0,9801 |
1,00 |
0,0001 |
0,01769 |
0,015 |
237,16 |
8 |
61 |
0,80 |
3721 |
48,8 |
0,64 |
0,763 |
0,00137 |
0,01082 |
0,004 |
134,56 |
9 |
71 |
0,86 |
5041 |
61,06 |
0,7396 |
0,852 |
0,000064 |
0,00023 |
0,00 |
2,56 |
10 |
82 |
0,95 |
6724 |
77,9 |
0,9025 |
0,949 |
0,000001 |
0,00672 |
0,007 |
88,36 |
∑ |
726 |
8,67 |
53662 |
637,93 |
7,5963 |
8,66 |
0,0039 |
0,0746 |
0,079 |
954,4 |
Найдем оценки a и b, используя систему уравнений для линейной зависимости.
Система нормальных уравнений:
;
.
Решая систему, получим
Линейная модель имеет вид: ŷ = 0, 221 + 0,00889х
2. Оценим тесноту взаимосвязи между признаками с помощью линейного коэффициента корреляции:
Коэффициент показывает высокую тесноту связи (прямолинейная зависимость).
Проверим значимость выборочного коэффициента корреляции.
Выдвигаем нулевую гипотезу (Н0) об отсутствии линейной зависимости.
Конкурирующая гипотеза (Н1) определяет двустороннюю критическую область.
Распределение Стьюдента с k = n – 2 = 10 – 2 = 8.
Tтабл (0,05; 8) = 2,31.
Так как, 12,41 > 2,31, то отклоняем гипотезу об отсутствии линейной зависимости. Другими словами, коэффициент корреляции статистически значим.
Коэффициент показывает высокую тесноту связи - прямолинейная зависимость между долей расходов домашних хозяйств на конечное потребление и индексом развития человеческого потенциала, что подтверждается экономической теорией.
4. Рассчитаем выборочный коэффициент детерминации. Для этого возведем коэффициент корреляции в квадрат.
Rв2 = (rв)2 = 0,9752 = 0,951
Коэффициент детерминации характеризует долю вариации признака У (индекс развития человеческого потенциала), объясненную линейным уравнением регрессии.
Таким образом, в среднем 95,1% вариации индекса развития человеческого потенциала объясняется вариацией доли расходов домашних хозяйств на конечное потребление в ВВП, а 4,9% зависит от вариации неучтенных в модели факторов.
Пример 4. Приведем необходимые формулы.
Выборочное уравнение прямой линии регрессии Y на X имеет вид
,
где и– выборочные средние признаковX и Y, и– выборочные средние квадратические отклонения,– выборочный коэффициент корреляции:
.
Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам
, ,
где C1 – ложный нуль вариант X, h1 – шаг, т.е. разность между двумя соседними вариантами; С2 – ложный нуль вариант Y , h2 – шаг вариант Y. В этом случае выборочный коэффициент корреляции имеет вид:
.
Величины могут быть найдены либо методом произведений (при большом числе данных), либо непосредственно по формулам:
, ,,.
Тогда величины, входящие в уравнение регрессии, можно пересчитать по формулам:
, ,,.
Решение. Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в корреляционной таблице:
-
y x
20
25
30
35
40
16
4
6
–
–
–
10
26
–
8
10
–
–
18
36
–
–
32
3
9
44
46
–
–
4
12
6
22
56
–
–
–
1
5
6
4
14
46
16
20
n=100
Составим корреляционную таблицу в условных вариантах, выбрав в качестве ложных нулей С1 = 30, С2 = 36, так как 32 – максимальная частота, встречающаяся в таблице.:
-
v u
-2
-1
0
1
2
-2
4
6
–
–
–
10
-1
–
8
10
–
–
18
0
–
–
32
3
9
44
1
–
–
4
12
6
22
2
–
–
–
1
5
6
4
14
46
16
20
n=100
Найдем и:
= 0,34;
=– 0,04.
Найдем , для чего составим расчетную таблицу:
u v |
-2 |
-1 |
0 |
1 |
2 |
|
|
-2
|
-8 4 -8 |
-6 6 -12 |
– |
– |
– |
-14 |
28 |
-1
|
–
|
-8 8 -8 |
0 10 -10 |
– |
– |
-8 |
8 |
0
|
–
|
– |
0 32 0 |
3 3 0 |
18 9 0 |
21 |
0 |
1
|
–
|
– |
0 4 4 |
12 12 12 |
12 6 6 |
24 |
24 |
2
|
– |
– |
– |
1 1 2 |
10 5 10 |
11 |
22 |
|
-8 |
-20 |
-6 |
14 |
16 |
– |
|
|
16 |
20 |
0 |
14 |
32 |
|
|
Найдем вспомогательные величины и:
;
.
Найдем :
=;
.
Найдем искомый выборочный коэффициент корреляции:
= .
Найдем шаги
h1 = 25 – 20 = 5; h2 = 26 – 16 = 10.
Найдем и:
;
.
Найдем и:
= ;
= .
Искомое уравнение прямой линии регрессии Y на X :
или окончательно
.
Коэффициент детерминации для линейной регрессии равен квадрату коэффициента корреляции: . Коэффициент детерминации характеризует долю вариации признакаy, объясненную линейным уравнением регрессии. Таким образом, в среднем 57,76 % случаев изменения х приводят к изменению y, а 42,24% зависит от вариации неучтенных в модели факторов.
Значимость коэффициента корреляции
По таблице критических точек распределения Стьюдента находим Tтабл при k=n-2
Tтабл (k; ) = (98;0.1) = 1,66
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически значим. Интервальная оценка для коэффициента корреляции (доверительный интервал)
Доверительный интервал для коэффициента корреляции .