- •«Южно-российский государственный
- •Содержание
- •Практическая работа n 1. Основы статистического описания.
- •Содержание работы.
- •Задание к самостоятельной работе.
- •Практическая работа n 2. Предварительный анализ данных. Проверка гипотез о согласии эмпирического распределения и выбранной модели
- •Выводы.
- •Задание к самостоятельной работе.
- •Практическая работа n 3. Предварительный анализ данных. Проверка гипотез о равенстве числовых характеристик случайных величин
- •2. Одна генеральная совокупность. Две случайные величины.
- •3. Две генеральные совокупности. Одна случайная величина.
- •Выводы.
- •Задание к самостоятельной работе.
- •Практическая работа №4 Анализ статистических связей между количественными переменными Оценивание парных статистических связей
- •Практическая работа №5 Основы регрессионного анализа
- •Задание к самостоятельной работе.
- •Литература:
Практическая работа №5 Основы регрессионного анализа
Цель: Научится выбирать с учетом специфики и природы анализируемых переменных форму зависимости Приобрести навыки:
- оценивать параметры модели;
-проверять гипотезу о статистической значимости параметров регрессионной модели.
Содержание работы.
I . Наибольшая плотность загрязнения снежного покрова БП-м наблюдается на территории, прилегающей к НЭЗ ( см. практ. раб.3). По мере удаления от объекта степень загрязнения уменьшается. В табл. 31 представлены данные о плотности загрязнения в зависимости от расстояния до НЭЗ. Необходимо подобрать модель, адекватно описывающую экологическую обстановку в исследуемом районе.
Таблица 31
Расстояние до объекта, км |
КБП, мг/ м3
|
Расстояние до объекта, км |
КБП, мг/ м3
|
0,2 0,5 1 1,5 1,5 1,7 2,5 2,5 |
371 207 220 120 80 110 50 45 |
3 3,5 5 7 8 8 9
|
27 33 12 15,7 4,4 2,2 1,8 |
Вид диаграммы (рис.6) предполагает нелинейную зависимость между рассматриваемыми переменными. В таблице 32 представлены преобразования, сводящие нелинейную регрессию к линейной ( Y ‘= F1(Y), X ’ = F2(X))
Для наглядности рассмотрим три модели:
а) yx =b0 + b1x, (35)
б) yx = b0 exp( b1x),
в) yx = b0 + b1 lg x
Рис. 6
Таблица 32
№ |
Функция yx |
X ‘ |
Y ’ |
b0 |
b1 |
1 2 3 4 5 6 7 |
b0 + b1x b0 xb1 b0 + b1/x b0 exp( b1x) b0 exp( b1/x) b0 + b1 lg x b0 + b1x2
|
x x 1/x x 1/x lg x x2 |
y lg y y ln y ln y y y |
b0’
b0’ exp b0’ exp b0’ b0’ b0’ |
b1’
b1’ b1’ b1’ b1’ b1’
|
В модели б) сделаем преобразование переменной yx
yx’ = ln yx = ln b0 + b1 x = b0’ + b1 x.
В модели в) сделаем преобразование переменной
х’=lg x.
Для определения параметров b0 и b1 по выборке объема n используют метод наименьших квадратов. Согласно этому методу параметры b0, b1 выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений yi от их значений, вычисленных по формуле (35), была минимальной, т.е.
. (36)
На основании необходимого условия экстремума функции SSR(b0, b1) приравниваем к нулю ее частные производные
,
что дает для определения b0, b1 систему линейных уравнений, решение которой дает:
, (37)
. (38)
Расчеты по приведенным формулам для рассматриваемых моделей приведены в таблице 32.
Таблица 32
x |
y |
x’=lg x |
y’=ln y |
Модель а) |
б) |
в) | |||
x2 |
xy |
x2 |
xy’ y’= lny |
x’2 х’=lgx |
x’y
| ||||
0,2 0,5 1 1,5 1,5 1,7 2,5 2,5 3 3,5 5 7 8 8 9 |
371 207 220 120 80 110 50 45 27 33 12 15,7 4,4 2,2 1,8 |
- 0,70 - 0,30 0 0,18 0,18 0,23 0,40 0,40 0,47 0,54 0,70 0,85 0,90 0,90 0,95 |
5,92 5,33 5,39 4,79 4,38 4,70 3,91 3,81 3,30 3,50 2,48 2,75 1,48 0,79 0,59 |
0,04 0,25 1 2,25 2,25 2,89 6,25 6,25 9 12,25 25 49 64 64 81 |
74,2 103,5 220 180 120 187 125 125 81 115,5 60 109,9 35,2 17,6 16,2 |
0,04 0,25 1 2,25 2,25 2,89 6,25 6,25 9 12,25 25 49 64 64 81 |
1,184 2,665 5,39 7,185 6,57 7,99 9,775 9,525 9,9 12,25 12,4 19,25 11,84 6,32 1,062 |
0,49 0,09 0 0,032 0,032 0,053 0,16 0,16 0,221 0,292 0,49 0,723 0,81 0,81 0,903 |
-259,7 - 62,1 0 21,06 14,4 25,3 20 18 12,69 17,82 8,4 13,35 3,96 1,98 1,71 |
3,66* |
86,61 |
0,38 |
3,54 |
21,7 |
104,67 |
21,7 |
8,22 |
0,351 |
-10,88 |
* - приведены средние значения.
Рассчитаем параметры моделей:
а) =180,19,
=-25,57;
б) =5,63,
=-0,57;
в) =167,16,
=-211,96.
Выполним обратное преобразование для коэффициента b0’ в модели б)
b0 = exp(b0’ ) = exp(5.63 ) = 278,8.
Полученные уравнения имеют вид (графически вид зависимости показан на рис. 7)
а) yx =180,19-25,57x, б) yx = 278,8 exp( -0,57x), в) yx = 167,16 – 211,8 lg x
Рис.7
Проведем статистический анализ уравнений регрессии.
Для того чтобы установить, соответствует ли выбранная регрессионная модель экспериментальным данным, используют основное уравнение дисперсионного анализа
SST = SSD + SSR , (38)
где
SST = , (40)
- общая сумма квадратов отклонений Y от средней,
SSD = , (47)
- сумма квадратов, обусловленная регрессией,
SSR = , (48)
- остаточная сумма квадратов.
Необходимые расчеты приведены в таблице 33.
Таблица 33
y |
yx а) |
yx б) |
yx в) | |
371 207 220 120 80 110 50 45 27 33 12 15,7 4,4 2,2 1,8 |
175,08 167,41 154,62 141,84 141,84 136,72 116,27 116,27 103,48 90,7 52,34 1,2 -24,37 -24,37 -49,94 |
248,76 209,66 157,67 118,57 118,57 105,79 67,05 67,05 50,43 37,92 16,13 5,16 2,92 2,92 1,65 |
315,2 230,92 167,16 129,86 129,86 118,35 82,88 82,88 66,11 51,93 19,12 -11,83 -24,11 -24,11 -34,95 | |
=86,61
|
SSD |
81402 |
86093 |
139506 |
SSR |
73658 |
21848 |
17199 |
Последовательность проверки гипотезы о том, что линейная парная регрессия Y по X отсутствует можно представить пятью шагами. 1-й шаг. Формулирование основной и альтернативной гипотез
Н0: b1 = 0,
H1: b1≠0.
2-й шаг. Задание уровня значимости α = 0,05. 3-й шаг. Формирование критической статистики и исследование закона ее распределения
ψкр =F=,
с числом степеней свободы (l-1, n-l) , где l - число коэффициентов модели (число связей)(l=2)
ψкр =F=,
Статистика ψкр имеет F-распределению Фишера с (1) и (n - 2) числом степеней свободы. 4-й шаг. Пользуясь таблицей процентных точек F-распределения Фишера, находим:
ψкр.в = F100% (1)(n - 2) = F5% (1)(15 - 2) = 4,67.
5-й шаг. Получаем расчетное значение критической статистики из выражения
а) ψкр ==14,4,
б) ψкр ==51,2 ,
в) ψкр ==105,4.
Условие
ψрасч > F5% (1)(13)
выполняется для всех моделей, следовательно, Н0 неверна (критерий односторонний) для а), б), в). Из исследованных моделей наиболее точно данные описывает в). Однако, с физической точки зрения необходимо принять к использованию для предсказания (прогноза) значений КБП модель б). Это связано с тем, что модели а), в) дают отрицательные значения КБП.