- •Вероятность интересующего нас события
- •Случайные величины. Законы распределения и числовые характеристики случайных величин
- •Системы случайных величин
- •Дополнительные задачи
- •Выборка и ее представление
- •Точечные и интервальные оценки
- •Проверка статистических гипотез. Критерий χ2
- •Регрессионный анализ
Регрессионный анализ
Смоленск 2009
Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида
Регрессией X на Y называется функция вида
= φ(y).
Оценками этих функций являются выборочные уравнения регрессии, или условные средние,
= φ*(y).
На практике часто используются выборочные уравнения линейной регрессии в виде
.
Для определения параметров ρ и β в уравнении используется получаемая на основании метода наименьших квадратов система двух уравнений
Аналогично находятся параметры ρ1 и β1 для функции
Для оценки связи между случайными величинами обычно используется выборочный коэффициент корреляции:
Выборочный коэффициент корреляции представляет собой отношение
.
В том случае, когда варианты парной выборки встречаются по нескольку раз, причём с одним значением варианты xi может встретиться несколько вариант yi, их обычно представляют в виде корреляционной таблицы. На пересечении строк и столбцов этой таблицы отмечается частота выбора соответствующей парыа частоты вариантнаходятся как суммы значенийпо соответствующей строке или столбцу. Например, в корреляционной таблице
xi yj |
10 |
20 |
30 | |
5 |
3 |
– |
2 |
5 |
10 |
5 |
4 |
2 |
11 |
8 |
4 |
4 |
n = 16 |
пара (10; 5) встречается 3 раза, т.е. а частота появления величинынаходится как сумма
Очевидно, что
Для коэффициента корреляции случайных величин X и Y в случае сгруппированных данных используется выражение
где
После подсчёта получают выборочное уравнение линейной регрессииY на X в виде
или выборочное уравнение линейной регрессии X на Y в виде
Для упрощения расчетов часто используются условные варианты, которые подсчитываются по формулам
где С1, С2 – ложные нули (выбираемые значения);
h1, h2 – разности между соседними значениями X и Y.
Соответственно, для обратного перехода применяются выражения
где – средние значения условных вариант;
средние квадратичные отклонения условных вариант.
Для подсчёта выборочного коэффициента корреляции в этом случае используются формула
где
Подсчитав выборочный коэффициент корреляции через условные варианты и осуществив переход к условным переменным, получают соответствующие уравнения регрессии.
Цель занятия: 1.Уяснить различие между функциональной и статистической зависимостью двух переменных.
2.Объяснить общую идею подбора эмпирических уравнений регрессии методом наименьших квадратов
К занятию по данной теме должны быть подготовлены следующие вопросы:
1.Что называется модельным уравнением регрессии Y на X?
2.Что называется эмпирическим уравнением регрессии Y на X? Пояснить его смысл.
3.Какие основные задачи корреляционного анализа и регрессионного анализа?
4.Какие критерии применяются для проверки гипотез относительно коэффициента корреляции генеральной совокупности?
Задача 1. С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты X и числа уволившихся за год рабочих Y:
X |
100 |
150 |
200 |
250 |
300 |
Y |
60 |
35 |
20 |
20 |
15 |
Найти линейную регрессию X на Y и выборочный коэффициент корреляции.
Решение. Составим расчётную таблицу:
i |
xi |
yi | |||
1 |
100 |
60 |
10000 |
6000 |
3600 |
2 |
150 |
35 |
22500 |
5250 |
1225 |
3 |
200 |
20 |
40000 |
4000 |
400 |
4 |
250 |
20 |
62500 |
5000 |
400 |
5 |
300 |
15 |
90000 |
4500 |
225 |
1000 |
150 |
225000 |
24750 |
5850 |
Определяем ρ и β:
Выборочное уравнение регрессии примет вид
Из расчетной таблице следует, что
По формуле находим
Найдём по формулам
Откуда
Таким образом,
Задача 2. В магазине постельных принадлежностей в течение пяти дней подсчитывали число покупок простыней X и подушек Y:
xi |
10 |
20 |
25 |
28 |
30 |
yi |
4 |
8 |
7 |
12 |
14 |
(В данной таблице значения X расставлены в возрастающем порядке.) Найти выборочное уравнение линейной регрессии и выборочный коэффициент корреляции.
Решение. Составим таблицу подсчётов.
Номер опыта i | |||||
1 2 3 4 5 |
10 20 25 28 30 |
4 8 7 12 14 |
100 400 625 784 900 |
40 160 175 336 420 |
16 64 49 144 196 |
113 |
45 |
2809 |
1131 |
469 |
Находим ρ и β:
Уравнение регрессии запишется в виде
Подсчитаем корреляционный момент:
Находим
Определим выборочную дисперсию величин X и Y:
Откуда
Задача 3. Найти выборочное уравнение линейной регрессии X на Y на основании корреляционной таблицы
xi yj |
15 |
20 |
25 |
30 |
35 |
40 |
100 |
2 |
1 |
– |
7 |
– |
– |
120 |
4 |
– |
2 |
– |
– |
3 |
140 |
– |
5 |
– |
10 |
5 |
2 |
160 |
– |
– |
3 |
1 |
2 |
3 |
Решение. Для упрощения расчётов введём условные варианты
и составим преобразованную корреляционную таблицу с условными вариантами, в которую внесём значения и:
ui vj |
-3 |
-2 |
-1 |
0 |
1 |
2 | |
-1 |
2 |
1 |
– |
7 |
– |
– |
10 |
0 |
4 |
– |
2 |
– |
– |
3 |
9 |
1 |
– |
5 |
– |
10 |
5 |
2 |
22 |
2 |
– |
– |
3 |
1 |
2 |
3 |
9 |
6 |
6 |
5 |
18 |
7 |
8 |
n=50 |
Затем составим новую таблицу, в которую внесём посчитанные значения в правый верхний угол заполненной клетки ив левый нижний угол, после чего суммируем верхние значения по строкам для получения значенийи нижние значения по столбцам дляи подсчитаем величиныи(табл.).
ui vj |
-3 |
-2 |
-1 |
0 |
1 |
2 | ||
-1
|
-6 2 -2 |
-2 1 -1 |
–
|
0 7 -7 |
– |
– |
-8
|
8 |
0
|
-12 4 0 |
– |
-2 2 0 |
– |
– |
6 3 0 |
-8 |
0 |
1
|
– |
-10 5 5 |
– |
0 10 10 |
5 5 5 |
4 2 2 |
-1 |
-1 |
2
|
– |
– |
-3 3 6 |
0 1 2 |
2 2 4 |
6 3 6 |
5 |
10 |
-2 |
4 |
6 |
5 |
9 |
8 |
– | ||
6 |
-8 |
-6 |
0 |
9 |
16 |
– |
Подсчитываем суммы иПараллельный подсчёт этих сумм осуществляется для контроля правильности расчетов. В данном случае
Находим и:
Находим :
Определяем :
Вычисляем выборочный коэффициент корреляции :
Осуществляем переход к исходным вариантам:
Находим уравнение регрессии X на Y:
или
Задача 4. Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы.
yj |
xi |
ny | |||||
10 |
20 |
30 |
40 |
50 |
60 | ||
15 25 35 45 55 |
5 – – – – |
7 20 – – – |
– 23 30 10 – |
– – 47 11 9 |
– – 2 20 7 |
– – – 6 3 |
12 43 79 47 19 |
nx |
5 |
27 |
63 |
67 |
29 |
9 |
n=200 |
Решение. Введём условные варианты:
Для подсчёта можно использовать преобразованные корреляционные таблицы. Вначале составляют таблицу, в которой записывают условные варианты(C1 = 40, C2 = 35).
vj |
ui |
nv | |||||
-3 |
-2 |
-1 |
0 |
1 |
2 | ||
-2 -1 0 1 2 |
5 – – – – |
7 20 – – – |
– 23 30 10 – |
– – 47 11 9 |
– – 2 20 7 |
– – – 6 3 |
12 43 79 47 19 |
nu |
5 |
27 |
63 |
67 |
29 |
9 |
n=200 |
После этого составляют таблицу, в которой подсчитывают произведения и.
vj |
ui | |||||||
-3 |
-2 |
-1 |
0 |
1 |
2 | |||
-2
|
-15 5 -10 |
-14 7 -14 |
–
|
– |
– |
– |
-29
|
58 |
-1
|
– |
-40 20 -20 |
-23 23 -23 |
– |
– |
– |
-63 |
63 |
0
|
– |
-30 30 0 |
– |
0 47 0 |
2 2 0 |
– |
-28 |
0 |
1
|
– |
– |
-10 10 10 |
0 11 11 |
20 20 20 |
12 6 6 |
22 |
22 |
2 |
– |
– |
– |
0 9 18 |
7 7 14 |
5 3 6 |
13 |
26 |
-10 |
-34 |
-13 |
29 |
34 |
12 |
– | ||
30 |
68 |
13 |
0 |
34 |
24 |
– |
Таким образом,
Находим также и:
Таким образом,
По формулам
определяем средние квадратичные отклонения:
Подставляем рассчитанные данные в формулу для :
Затем рассчитываем по формулам
получаем
Подставляем полученные значения в уравнение регрессии:
окончательно получаем
Задача 5. Из двухмерной нормальной генеральной совокупности извлечена выборка объемом n = 122. Найден выборочный коэффициент корреляции rв = 0,4. Проверить нулевую гипотезу Н0 о равенстве нулю генерального коэффициента корреляции при уровне значимости =0,05 и конкурирующей гипотезе Н1.
Решение. Находим
По условию конкурирующая гипотеза Н1: r10, поэтому критическая область – двусторонняя. По уровню значимости =0,05 и числу степеней свободы l = 122 – 2 = 120 находим из таблицы значений распределения Стьюдента для двусторонней критической области tкр= (0,05 ,120) = 1,98.
Так как Тнабл > tкр, т.е. 4,79 > 1,98, нулевую гипотезу отвергаем, т.е. выборочный коэффициент значимо отличается от нуля, следовательно. X и Y коррелируемы.
Дополнительные задачи.
Задача 1.В результате измерений отклонений от номиналов высот моделей (хi) и отливок к ним (уj) получены следующие результаты:
0,9 |
1,22 |
1,32 |
0,77 |
1,3 |
1,2 |
1,32 |
0,95 |
0,45 |
1,3 |
1,2 |
-0,3 |
0,1 |
0,7 |
-0,3 |
0,25 |
0,02 |
0,37 |
-0,7 |
0,55 |
0,35 |
0,32 |
Cоставить корреляционную таблицу и вычислить коэффициент корреляции.
Решение. Разобьем весь интервал, в котором заключены значения признаков, на пять частей. Возьмем для хi наименьшее значение 0,40 и наибольшее – 1,40, тогда ширина одного интервала будет равна 0,20. Наименьшее yj=-0,7, а наибольшее – 0,7. Ширина интервала 0,28. Откладываем интервалы изменений хi по горизонтали, а уj – по вертикали; данные заносим в табл.
0,5 0,7 0,9 1,1 1,3 Таблица
xi yj |
0,4-0,6 |
0,6-0,8 |
0,8-1 |
1-1,2 |
1,2-1,4 |
ny |
-0,7- -0,42 -0,42- -0,14 -0,14-0,14 0,14-0,42 0,42-0,7 |
- - - - 1 |
- 1 - - - |
1 1 - - - |
- - - 2 - |
- 1 1 2 1 |
1 3 1 4 2 |
nx |
1 |
1 |
2 |
2 |
5 |
n=11 |
- 0,56
- 0,28
0
0,28
0,56
Определим коэффициент корреляции. Для этого найдем средние значения и, предполагая, чтохi и уj - середины соответствующих интервалов:
,
Коэффициент корреляции близок к единице, следовательно, между случайными величинами Х и Y достаточно тесная корреляционная связь.
Задача 2. Распределение 40 заводов области по количествуY ремонтных слесарей и числу X станко-смен представлено следующей корреляционной таблицей (табл.7)
Таблица 7
Y X |
10 – 15 |
15 – 20 |
20 – 25 |
25 – 30 |
30 – 35 |
35 – 40 |
nx
|
0 – 0,2 0,2 – 0,4 0,4 – 0,6 0,6 – 0,8 0,8 – 1,0 1,0 – 1,2 |
4 2 - - - - |
- 2 - 6 - - |
- - 2 - - - |
- - - 4 - - |
- - - 4 6 - |
- - - - 6 4 |
4 4 2 14 12 4 |
ny |
6 |
8 |
2 |
4 |
10 |
10 |
n= 40 |
Составить уравнение прямой регрессии, установить тесноту связи между признаками. Для каждого интервала значений Y вычислить фактические значения частных средних yx и теоретические значения, найденные из уравнений регрессии.
Решение. За значения признаков примем середины интервалов и составим корреляционную таблицу в условных вариантах, приняв в качестве условных нулей C1 = 0,7 и C2 = 27,5. (Эти варианты имеют частоту, равную 4, и находятся в середине корреляционной таблицы.)
Таблица
u |
-3 |
-2 |
-1 |
0 |
1 |
2 |
nu |
-3 -2 -1 0 1 2 |
4 2 - - - - |
- 2 - 6 - - |
- - 2 - - - |
- - - 4 - - |
- - - 4 6 - |
- - - - 6 4 |
4 4 2 14 12 4 |
n |
6 |
8 |
2 |
4 |
10 |
10 |
n= 40 |
Находим:
Найдем искомый коэффициент корреляции:
Вычислим :
Подставим полученные значения в уравнение регрессии:
или
Вычислим для каждого интервала изменения х фактические значения частных средних:
,
,
,
,
.
Вычислим для каждого интервала изменения х теоретические значения из полученного уравнения:
,
,
,
,
,
.
Cравнивая полученные значения, видим, что они близки к фактическим.
Задача 3. Найти уравнение параболической регрессии Y и Х для экспериментальных данных, помещенных в табл.
Таблица
хi
уj |
1 |
2 |
3 |
4 |
5 |
6 |
ny |
1 2 3 4 5 6 |
2 1 - - - - |
1 2 3 1 - - |
- - 1 3 2 - |
- - - 1 2 1 |
- - - - 2 1 |
- - - - 1 1 |
3 3 4 5 7 3 |
nx
|
3 |
7 |
6 |
4 |
3 |
2 |
n=25 |
1,33 |
2,57 |
4,17 |
5,0 |
5,33 |
5,50 |
|
Решение. Ищем уравнение регрессии в виде
.
Для определения неизвестных коэффициентов а, b по МНК записываем систему нормальных уравнений:
(1)
и составляем вспомогательную таблицу (10).
Таблица 10
-
n x
x
nxx
nxx2
nxx3
3
7
6
4
3
2
1
2
3
4
5
6
3
14
18
16
15
12
3
28
54
64
75
72
3
56
162
256
375
432
nx=25
21
78
296
1284
Таблица 10
nxx4 |
yx |
nxyx |
nxxyx |
nxx2yx |
3 112 486 1024 1875 2592 |
1,33 2,57 4,17 5,0 5,33 5,50 |
3,99 17,99 25,02 20,00 15,99 11,00 |
3,99 35,98 75,06 80,00 79,95 66,00 |
3,99 71,96 225,18 320,00 399,75 396,00 |
6092 |
23,9 |
93,99 |
340,98 |
1416,88 |
Теперь уравнения (1) примут вид:
Для упрощения расчетов разделим каждое уравнение на коэффициент при с:
Решив полученную систему, найдем: a= - 0,19, b= 2,21, c = 0,89.
Уравнение регрессии имеет вид
yx = -0,19х2 + 2,21х – 0,89.
Подставив в это уравнение в место х его значения, получим теоретические значения средних :
-
х
1
2
3
4
5
6
1,14
2,78
4,07
4,91
5,41
5,52
Сравнивая теоретические значения частных средних с экспериментальными, видим, что они достаточно близки.
Задача 4. Зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов X (млн руб.) для совокупности 50 однотипных предприятий представлена в таблице.
Вели- чина ОПФ, млн. руб.(X) |
Середи- ны интер - валов
|
Суточная выработка продукции, т (Y)
|
Всего ni |
Группо- вая сре - няя, т |
7-11 11-15 15-19 19-23 23-27 | ||||
yj xi |
9 13 17 21 25 | |||
20-25 25-30 30-35 35-40 40-45 |
22,5 27,5 32,5 37,5 42,5 |
2 1 – – – 3 6 4 – – – 3 11 7 – – 1 2 6 2 – – – 1 1 |
3 13 21 11 2 |
10,3 13,3 17,8 20,3 23,0 |
Всего ni |
|
5 11 17 14 3 |
50 |
– |
Групповая средняя млн руб. 25,5 29,3 31,9 35,4 39,2 – – |
Проверить значимость коэффициента корреляции между переменными X и Y.
Решение. Статистика критерия:
Для уровня значимости и числа степеней свободынаходим критическое значение статистики(см. табл. приложений). Посколькукоэффициент корреляции между суточной выработкой продукцииY и величиной основных производственных фондов Xзначимо отличается от нуля.
Домашнее задание.
Задача 1. Распредление 60 предприятий химической промышленности по энерговооружённости труда Y (кВт ∙ ч) и фондовооружённости X (млн руб.) дано в таблице
x y |
0 – 4,5 |
4,5 – 9 |
9 – 13,5 |
13,5 – 18 |
18 – 22,5 |
Итого |
0 – 1,4 1,4 – 2,8 2,8 – 4,2 4,2 – 5,6 5,6 – 7,0 7,0 – 8,4 |
4 4 2 – – – |
1 2 8 1 – – |
– – 1 20 3 – |
– – – 4 3 1 |
– – – – 3 3 |
5 6 11 25 9 4 |
Итого |
10 |
12 |
24 |
8 |
6 |
60 |
Необходимо: а) Построить эмпирические линии регрессии; б) оценить тесноту и направление связи между переменными с помощью коэффициента корреляции; проверить значимость коэффициента корреляции на уровне и построить для него 95%-ный доверительный интервал; в) вычислить эмпирические корреляционные отношения и оценить их значимость на 5%-ном уровне; г) на уровне значимости 0,05 проверить гипотезу о линейной корреляционной зависимости между переменнымиY и X; д) найти уравнения прямых регрессии, построить их графики и найти 95%-ные доверительные интервалы для коэффициентов регрессии.
Задача 2. Имеются следующие данные об уровне механизации работ X (%) и производительности труда Y (т/ч) для 14 однотипных предприятий:
xi |
32 |
30 |
36 |
40 |
41 |
47 |
56 |
54 |
60 |
55 |
61 |
67 |
69 |
76 |
yj |
20 |
24 |
28 |
30 |
31 |
33 |
34 |
37 |
38 |
40 |
41 |
43 |
45 |
48 |
Необходимо: а) оценить тесноту и направление связи между переменными с помощью коэффициента корреляции; проверить значимость коэффициента корреляции на уровне ; б) найти уравнения прямых регрессии.
Задача 3. При исследовании корреляционной зависимости между объёмом продукции X (единиц) и её себестоимости Y (тыс. руб.) получено следующее уравнение регрессии Y по X: Составить уравнение регрессииX по Y, если коэффициент корреляции между этими признаками оказалась равным -0,8, а средний объём продукции единиц.
Задача 4. При исследовании корреляционной зависимости между ценой на нефть X и индексом нефтяных компаний Y получены следующие данные: (ден.ед.),(усл. ед.), Необходимо: а) составить уравнения регрессии Y по X и X по Y; б) используя соответствующее уравнение регрессии, найти среднюю величину индекса при цене на нефть 16,5 ден. ед.
Ответы:
1). б) r = 0,872; связь тесная и прямая, r значим, так как t= =13,57 > (с помощьюz - преобразования Фишера); в) (значим, так какF = =50,4 > (значим, так какF = =47,6 > г) гипотеза о линейной корреляционной зависимости не отвергается, ибоблизко ктак, чтоF=2,10 < (илиблизко ктак, чтоF = =2,47 > ); д)
2). а) r = 0,969; связь очень тесная и прямая; r значим (так как t = б)
3).
4). а)б)(усл. ед.).