Теория вероятностей и математическая статистика_Гусева Е.Н_2011 -220с
.pdfВ табл. 28 приведены значения двух величин, которые являются характеристиками массы и расхода электроэнергии поездов. Пусть X- масса поезда, выраженная в тыс. т., Y – удельный расход электроэнергии, кВт/ч на10 тыс. км.
Определить: выборочное уравнение прямой регрессии Y на X. Сделать вывод о характере и тесноте связи между массой поезда X и удельным расходом электроэнергии Y.
Таблица 28
Данные о массе поезда и расходе электроэнергии
№ |
Масса поезда, X, |
Электроэнергия, Y, |
|
тыс. т. |
кВт/ч на 10000 км |
||
|
|||
|
|
|
|
1 |
2,5 |
85 |
|
2 |
2,5 |
105 |
|
3 |
3 |
85 |
|
4 |
3 |
95 |
|
5 |
3 |
105 |
|
6 |
3,5 |
75 |
|
7 |
3,5 |
85 |
|
8 |
3,5 |
95 |
|
9 |
4 |
75 |
|
10 |
4 |
85 |
|
11 |
4 |
95 |
|
12 |
4,5 |
75 |
|
13 |
4,5 |
85 |
1.Построить диаграмму рассеяния.
2.Рассчитать коэффициент корреляции для данной популяции. Сделать вывод о виде связи.
3.Рассчитать коэффициенты прямой регрессии a и b. Составить уравнение регрессии.
210
4.Построить по заданным х и вычисленным в уравнении регрессии у — прямую регрессии на том же графике, что и диаграмма рассеяния.
5.Рассчитать прогнозируемые затраты электроэнергии для поездов с массой: 2, 3, 4 тыс. тонн.
6.Определить доверительные интервалы для рассчитанных
данных. Добавить несколько данных о массе и расходе электроэнергии поездами в исходную таблицу.
7.Выполнить задание заново на новом листе. Сделать вывод
оразмере доверительного интервала при увеличении выборки.
8.Выбрать значение — вероятность ошибки, которая задает границы доверительного интервала. Например, для 95%-
го интервала = 0.05.
9. Определить по таблице tN 2 tN 2 ; / 2 . Половина для
доверительного интервала берется, так как t-распределение симметричное.
10.Пример таблицы для t-распределения Стьюдента представлен в табл. 29.
11.При расчете этого коэффициента можно воспользоваться функцией Excel:
СТЬЮДРАСПОБР (Вероятность, степени_свободы), где
вероятность — значение , степени_свободы — N-2, объем выборки минус количество связей.
Рекомендуется проверить данные, полученные при помощи этой функции.
7.Рассчитать значение интервала у и получить
интервальную оценку в виде: ~
y yi y
211
|
|
|
|
|
|
Таблица 29 |
|
|
Пример t-распределения Стьюдента |
|
|||
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0.100 |
|
0.050 |
0.025 |
0.010 |
0.005 |
1 |
3.078 |
|
6.314 |
12.706 |
31.831 |
63.657 |
2 |
1.886 |
|
2.920 |
4.303 |
6.965 |
9.925 |
3 |
1.638 |
|
2.353 |
3.182 |
4.541 |
5.841 |
|
|
|
|
|
|
|
|
|
|
|
|
|
3,106 |
11 |
1,363 |
|
1,796 |
2,201 |
2,718 |
|
12 |
1,356 |
|
1,782 |
2,179 |
2,681 |
3,055 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Контрольные вопросы
1.Каковы этапы построения регрессионной модели?
2.Что представляет собой линейный регрессионный анализ?
3.В чем суть метода наименьших квадратов?
4.Как определяются коэффициенты линейной регрессии?
5.Каким образом определяется уравнение линейной регрессии?
6.Что называется доверительным интервалом и как он определяется?
7.Как определяются границы доверительных интервалов?
212
Лабораторная работа № 7
Множественный регрессионный анализ Цель: получение навыков выполнения множественного
регрессионного анализа, построения уравнения регрессии в статистическом пакете Statistica.
В результате исследования бюджетов домохозяйств за десять месяцев прошедшего года были получены сведения о средней месячной стоимости четырех продуктов питания (X1, X2, X3, X4), а также данные о затратах на продукты домохозяйства в целом
(Y). Необходимо выполнить множественный регрессионный анализ для изучения функциональной зависимости между продуктовыми затратами домохозяйства и стоимостями продуктов питания.
Таблица 30
Затраты домохозяйства за 10 месяцев текущего года и стоимости продуктов
№ |
Y |
X1 |
X2 |
X3 |
X4 |
1 |
4765,3 |
26,2 |
18,5 |
175 |
170 |
2 |
3851,7 |
23,8 |
16,5 |
160 |
140 |
3 |
5117,9 |
27,6 |
18,5 |
170 |
185 |
4 |
6205 |
28 |
21 |
195 |
220 |
5 |
6099,2 |
25,5 |
22 |
216 |
210 |
6 |
6483,1 |
27,5 |
17,9 |
190 |
230 |
7 |
4619,4 |
26 |
18,6 |
185 |
160 |
8 |
5102,65 |
28,5 |
18,85 |
190 |
175 |
9 |
6247,6 |
27,5 |
18,4 |
215 |
210 |
10 |
4253,4 |
24,8 |
17,8 |
175 |
150 |
1. Получить дескриптивные статистики по каждому признаку (среднее арифметическое, дисперсию, среднее
213
квадратичное отклонение).
2.Рассчитать коэффициенты парной корреляции для всех признаков. Оценить показатели вариации каждого признака и сделать вывод о возможностях применения метода наименьших квадратов для их изучения. Проанализировать линейные коэффициенты парной и частной корреляции.
3.Составить уравнение множественной регрессии, оценить его параметры.
4.С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии в целом.
Рекомендации к выполнению:
1.С помощью соответствующих статистических функций в Excel определить: среднее арифметическое, дисперсию, среднее квадратичное отклонение по каждому признаку (Y, X1, X2, X3, X4).
2.Постройте матрицу парных коэффициентов корреляции:
|
|
|
|
Y |
X1 |
|
X2 |
|
X3 |
|
X4 |
|
||
|
|
Y |
|
1 |
0,508 |
|
0,494 |
0,754 |
0,987 |
|
||||
|
|
X1 |
|
0,508 |
1 |
|
0,307 |
0,394 |
0,465 |
|
||||
|
|
X2 |
0,494 |
0,307 |
|
1 |
0,689 |
0,447 |
|
|||||
|
|
X3 |
|
0,754 |
0,394 |
|
0,689 |
|
1 |
|
0,645 |
|
||
|
|
|
|
|
|
|
||||||||
|
|
X4 |
|
0,987 |
0,465 |
|
0,447 |
0,645 |
|
1 |
|
|
||
|
|
|
|
|
|
|
||||||||
|
Очевидно, что |
все четыре |
изучаемые фактора имеют |
линейную связь с результирующим показателем Y, поскольку их коэффициенты корреляции с Y достаточно высокие. Межфакторная корреляция признаков не превышает 0,7, поэтому все факторы рекомендуется включить в уравнение множественной регрессии.
214
3. Для составления уравнения множественной регрессии нужно подставить рассчитанные коэффициенты корреляции в уравнения:
ryx1 1 2rx2 x1 3rx3x1 ... |
p rxpx1; |
ryx2 1rx1x2 2 3rx3x2 ... |
p rxpx2 ; |
..............................................................
ryxp 1rx1xp 2rx2xp 3rx3xp ... p .
Получим такую систему линейных уравнений:
0,508 1 0,307 2 0,394 3 0,465 4 ; 0,494 0,307 1 2 0,689 3 0,447 4 ; 0,754 0,394 1 0,689 2 3 0,645 4 0,987 0,465 1 0,447 2 0,645 3 4 .
Для решения системы уравнений и определения стандартизованных коэффициентов i можно использовать матричный метод (создать обратную матрицу, а затем для определения неизвестных найти сумму произведений элементов каждой строки матрицы со свободными членами). Для построения обратной матрицы можно воспользоваться функцией МОБР(), для которой агрументом будут элементы исходной матрицы, а для определения стандартизованных коэффициентов βi нужно применить функцию СУММПРОИЗВ.
Например, для рассчета коэффициента β1 нужно ввести функцию:
=СУММПРОИЗВ (H19:K19;H27:K27),
для рассчета коэффициента β2 нужно ввести функцию: =СУММПРОИЗВ (H19:K19;H28:K28) и т.д.
Образцы рассчетных матриц приведены ниже.
215
H |
I |
J |
K |
№Свободные члены матрицы
19 |
0,512 |
|
0,571 |
0,784 |
|
0,979 |
|
|
|
|
Исходная матрица |
|
|||
|
1 |
0,307 |
0,394 |
0,465 |
|||
|
0,307 |
|
1 |
0,689 |
0,447 |
||
|
0,394 |
|
0,689 |
|
1 |
|
0,645 |
|
0,465 |
0,447 |
|
0,645 |
|
1 |
|
|
|
|
Обратная матрица |
|
|||
27 |
1,305 |
|
-0,085 |
|
-0,152 |
|
-0,472 |
|
-0,085 |
|
1,911 |
|
-1,299 |
|
0,023 |
|
-0,152 |
|
-1,299 |
|
2,631 |
|
-1,047 |
|
-0,472 |
|
0,023 |
|
-1,047 |
|
1,885 |
|
|
|
Коэффициенты |
|
β1 β2
0,039022 0,052289
β3 β4
0,218454 0,7960302
Затем, на основе стандартизованных коэффициентов i рассчитать коэффициенты линейной регресси и bi по формуле:
b |
|
|
|
y |
. |
|
|
|
|
|
|
|
|
||||
i |
|
i |
|
|
|
|
|
|
|
|
|
|
xi |
|
|
|
|
|
|
|
|
b |
0,039022 |
938,68 |
23,96 24 |
|
|
|
|
|
|
||||
|
|
|
|
1 |
1,53 |
|
||
|
|
|
|
|
|
|
||
|
|
|
|
b |
0,052289 938,68 31,065 31 |
|||
|
|
|
|
2 |
1,58 |
|
||
|
|
|
|
|
|
|
b3 0,218454 93818,31,68 11,19 11,2
216
b4 0,7960302 93829,89,68 24,99 25
После этого рассчитывается свободный член регрессионного уравнения a:
a y b1 x 1 b2 x2 .... bp x p ,
a 6465,44 24 * 26,54 31*18,81 11,2 *187,1 25*186 1500.
Затем составляется уравнение линейной регрессии: yˆ 1500 24x1 31x2 11,2x3 25x4 .
Контрольные вопросы
1.Как оценивается значимость коэффициента корреляции?
2.Что характеризуют параметры регрессионного уравнения? Объясните сущность коэффициента парной линейной регрессии.
3.Как оценивается значимость параметров регрессионного уравнения?
4.Дайте определение стандартизованному коэффициенту регрессии. Что он характеризует?
5.Что позволяет оценить множественный коэффициент детерминации?
6.Как оценить статистическую надежность регрессионного уравнения в целом?
217
Список рекомендуемой литературы
1.Вентцель Е.С. Теория вероятностей и ее инженерные приложения / Е.С. Вентцель, Л.А. Овчаров – М.: Высш. шк, 2007. – 496с.
2.Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: учеб. пособие.– 11-е изд. – М.: Высшее образование, 2009. – 416 с.
3.Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие.– 12-е изд., перераб. – М.: Высшее об-
разование, 2009. – 480 с.
4.Дубров А.М. Многомерные статистические методы : учебник А.М. Дубров, В.С. Мхитарян, Л.И. Трошин. – М. : Финансы и статистика, 2000. – 352 с.
5.Калинина В. Н. Теория вероятностей и математическая статистика. Компьютерно-ориентированный курс / В.Н. Кали-
нина. – М.: Дрофа, 2009. – 480 с.
6.Кремер Н.Ш. Теория вероятностей и математическая статистика : учебник для вузов / Н.Ш. Кремер. – М. : Юнити-
Дана, 2007. – 551 с.
7.Соколов Г.А. Теория вероятностей : учебник / Г.А Соколов, Н.А. Чистякова.- М. : Изд-во «Экзамен», 2005.– 416 с.
8.Чистяков В.П. Курс теории вероятностей : учебник для вузов / В.П. Чистяков. – 7-е изд. – М. : Дрофа, 2007. – 256 с.
9.Шведов А.С. Теория вероятностей и математическая статистика : учеб. пособие / А.С. Шведов. – М. : Изд. Дом ГУ ВШЭ, 2005. – 254 с.
10.Шмойлова Р.А. Практикум по теории статистики : учеб. пособие / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова;
218
под ред. Р.А. Шмойловой. – М. : Финансы и статистика, 2005. – 416 с.
11.Шмойлова Р.А. Теория статистики : учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова, Е.Б. Шувалова; под ред. Р.А. Шмойловой. – 4-е изд., перераб. и доп.– М. : Финансы и статистика, 2005. – 656 с.
219