Методическое пособие 187
.pdfФГБОУ ВО "Воронежский государственный технический университет"
Кафедра высшей математики и физико-математического моделирования
МЕТОДИЧЕСКИЕ УКАЗАНИЯ
к выполнению курсовой работы по дисциплине «Математика» для студентов направления 27.03.05 «Инноватика»
Воронеж 2016
Составитель: канд. физ.– мат. наук В.В. Ломакин
УДК 519.2
Методические указания к выполнению курсовой работы по дисциплине «Математика» для студентов направления 27.03.05 «Инноватика» / ФГБОУ ВО «Воронежский государственный технический университет»; сост. В.В. Ломакин. Воронеж, 2016. 21 с.
Методические указания составлены в целях оказания помощи студентам при выполнении ими курсовой работы по математике, которая содержит теоретическую и практическую части, связанные с разделом «Корреляционно-регрессионный анализ». Даны подробные рекомендации по проведению расчетов, варианты теоретического и практического заданий. Приведены детальные требования к оформлению курсовой работы и график работы над ней.
Методические указания подготовлены в электронном виде и содержатся в файле Мет.указ.курс.раб(ИН).pdf.
Табл.2. Библиогр.: 6 назв.
Рецензент канд. техн. наук, доц. В.В. Пешков
Ответственный за выпуск зав. кафедрой д-р физ.-мат. наук, проф. И.Л. Батаронов
Издается по решению редакционно-издательского совета Воронежского государственного технического университета
ФГБОУ ВО «Воронежский государственный технический университет», 2016
1. ЦЕЛИ И ЗАДАЧИ КУРСОВОЙ РАБОТЫ
Методические указания составлены в соответствии с рабочими программами по специальности "Математика" для студентов направления 27.03.05 «Инноватика».
Курсовая работа предусматривает более подробное изучение раздела «Корреляци-
онно-регрессионный анализ» и практики его применения при исследовании статистиче-
ских данных, относящихся к социально-экономическим явлениям и процессам.
Целями курсовой работы являются:
–развитие у студентов логического и алгоритмического мышления;
–углубление навыков самостоятельной работы с математической литературой;
–овладение методами корреляционно-регрессионного анализа, используемыми при анализе статистических данных.
Для достижения этих целей ставятся задачи:
– собрать и проанализировать литературные данные, относящиеся к рассматривае-
мому разделу корреляционно-регрессионного анализа;
–написать реферативный обзор этого раздела;
–обработать предлагаемые статистические данные, применяя методы корреляци-
онно-регрессионного анализа.
При написании курсовой работы студенту необходимо соблюдать следующие ос-
новные требования:
-достаточно высокий теоретический уровень;
-творческий подход к изучаемому материалу;
-обоснованное применение статистических методов исследования для обработки и анализа статистических данных;
-всесторонний анализ выводов, полученных в результате обработки этих данных;
– правильное научное оформление курсовой работы.
2. ЭТАПЫ ПОДГОТОВКИ КУРСОВОЙ РАБОТЫ
На первом этапе выполнения курсовой работы необходимо изучить имеющуюся учебную и научную литературу по предложенной теме (см. Приложение 1.) и составить план для теоретической части курсовой работы.
На втором этапе необходимо в соответствии с планом написать реферат (15-20
стр.) по рассматриваемой теме и поместить его в первый раздел.
На третьем этапе следует провести корреляционно-регрессионный анализ пред-
ложенных данных (см. Приложение 2.) и записать полученные результаты с выводами во втором разделе.
3. СОДЕРЖАНИЕ КУРСОВОЙ РАБОТЫ
Во введении обосновывается актуальность выбранной темы, формулируются цель и задачи исследования, называется объект и предмет курсовой работы. Объем введения не должен превышать 2-х страниц.
В первом разделе на основании изученных литературных источников ясно и дос-
тупно излагается рассматриваемая тема, освещаются основные понятия этой темы и ее практическое значение (с привлечением конкретных примеров). При этом широко исполь-
зуются учебники, специальные монографии, учебные пособия и методические рекоменда-
ции, материалы периодических экономических изданий. Список литературы должен со-
держать не менее 15 источников, включая ссылки на Интернет-сайты.
При написании данного раздела обязательны ссылки в квадратных скобках на ис-
пользуемые литературные источники. В конце реферата необходимо сформулировать чет-
кие обобщающие выводы об изученной теме и ее практической значимости. Также хоро-
шо бы привести предложения по устранению недостатков и совершенствованию предмета рассмотрения.
Во втором разделе на основании имеющихся данных определяются параметры линейной парной регрессии, производится проверка статистической значимости этих па-
раметров и проводятся их интервальные оценки.
Действия с числовыми данными лучше проводить в последовательности, представ-
ленной в приведенных ниже рекомендациях. При оформлении практической части курсо-
вой работы не следует повторять полностью эти подробные рекомендации, необходимо излагать текст самостоятельно.
2
4. РЕКОМЕНДАЦИИ ПО ВЫПОЛНЕНИЮ ПРАКТИЧЕСКОГО ЗАДАНИЯ КУРСОВОЙ РАБОТЫ
Провести корреляционно-регрессионный анализ следующих данных:
|
|
xi |
161 |
|
183 |
149 |
|
119 |
|
230 |
|
201 |
|
278 |
|
219 |
|
180 |
|
185 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
yi |
790 |
|
570 |
860 |
|
1010 |
|
520 |
|
650 |
|
570 |
|
620 |
|
730 |
|
730 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
|
139 |
|
129 |
|
91 |
|
|
132 |
|
|
160 |
|
|
290 |
|
|
160 |
|
|
231 |
|
|
316 |
|
|
213 |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
yi |
|
690 |
|
1060 |
|
1860 |
|
840 |
|
|
800 |
|
|
490 |
|
|
800 |
|
|
510 |
|
|
450 |
|
|
540 |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
xi |
|
138 |
|
139 |
|
180 |
|
230 |
|
180 |
|
210 |
|
290 |
|
270 |
|
210 |
|
150 |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
yj |
|
820 |
|
690 |
|
|
580 |
|
510 |
|
740 |
|
630 |
|
480 |
|
560 |
|
550 |
|
810 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4.1. Графический метод и линейная регрессия.
Графический метод применяют для наглядного изображения формы связи между изучаемыми признаками генеральной совокупности. Для этого в прямоугольной системе координат необходимо построить график, откладывая по оси ординат индивидуальные значения результативного признака Y, а по оси абсцисс – индивидуальные значения фак-
торного (объясняющего) признака X. Совокупность получающихся точек называется по-
лем корреляции или корреляционным полем [1]. На основании полученного графика вы-
двигается гипотеза (для генеральной совокупности) о том, что связь между всеми возмож-
ными значениями признаков X и Y носит линейный характер: Y X . Этой связи со-
ответствует выборочное уравнение линейной парной регрессии (см. [1] – [5])
y |
y |
x bx a , |
(1) |
где a и b – статистические оценки параметров α и β, – случайная ошибка (отклонение,
возмущение).
Так как отклонения для каждого конкретного i–го наблюдения случайны и их зна-
чения в выборке неизвестны, то, как правило, считается, что – случайная величина с не-
зависимыми значениями и характеристиками M( ) 0, D 2
3
Оценки а и b параметров α и β проводятся по результатам выборки xi; yi , i 1,2,..., n с помощью метода наименьших квадратов (МНК).
Формально критерий МНК можно записать так:
n |
n |
||
S a,b yi |
y |
xi 2 |
yi a bxi 2 min. |
i 1 |
i 1 |
Из необходимых условий этого минимума S a 0, S b 0
уравнений, определяющая искомые оценки а и b:
a bx y,
ax bx2 xy,
где использованы обозначения
(2)
следует система
(3)
n |
|
xk yl 1 n xik yil . |
(4) |
i 1
Из (3) следует, что оценки b и а равны
|
|
|
|
|
|
|
b |
xy |
|
x |
|
y |
|
, |
|
|
|
|
|
|
|
|
a |
y |
bx |
. |
|
|
|
|
|
(5) |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
x |
2 |
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
x2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
С учетом (2) далее можно записать |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y |
|
|
||||
|
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
xy |
x |
y |
|
|
|
|
|
|
|||||||
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
y |
y |
, |
|
|
x |
x |
, |
r |
|
, b r |
, |
(6) |
||||||||||||||||||||||||||||||||
y |
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xy |
|
|
|
y |
|
|
xy |
|
x |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
(7)
Выборочное уравнение линейной парной регрессии в этих обозначениях имеет вид:
y |
x |
y |
|
rxy |
|
y |
x |
x |
. |
(8) |
||
|
|
|
||||||||||
|
||||||||||||
|
|
|
|
|
x |
|
||||||
|
|
|
|
|
|
|
|
4.2. Расчет параметров уравнения линейной парной регрессии.
С помощью данных, приведенных в исходной таблице, и формулы (4) проводятся
соответствующие расчеты:
|
|
1 |
n |
|
5763 |
|
|
x |
|
xi |
|
192,1; |
|||
n |
|
||||||
|
|
i 1 |
30 |
|
|
|
1 |
n |
|
21460 |
|
|
y |
|
yj |
|
715,33(3); |
|||
n |
|
||||||
|
|
j 1 |
30 |
|
|
|
1 |
n |
|
3800360 |
|
|
xy |
|
xi yi |
|
126678,66(6). |
|||
|
|
||||||
|
|
n i 1 |
30 |
|
4
Выборочные дисперсии и среднеквадратические отклонения согласно (6) равны
|
|
|
|
|
|
|
|
|
|
|
|
1 |
n |
|
|
|
|
|
|
|
1200261 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x2 |
xi2 |
x |
2 |
|
|
192,1 2 |
3106,29, |
||||||||||||||||
|
|
|
|
|
|
30 |
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
n i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
1 |
|
n |
|
|
|
|
|
|
17408000 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
y2 |
|
y2j |
|
y |
2 |
715,33 2 |
68565,38, |
||||||||||||||||||
|
|
|
n |
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
j 1 |
|
|
|
|
|
|
|
30 |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
x2 |
|
|
|
|
55,73; |
|
y |
|
y2 |
|
|
261,85. |
||||||||||||||
|
x |
|
|
|
|
3106,29 |
|
|
|
68564,89 |
Для выборочной ковариации и выборочного коэффициента корреляции имеем
cov x, y xy x y 126678,67 192,1 715,33 10736,22,
r |
|
|
xy |
x |
|
y |
|
10736,22 |
0,7357. |
||
|
|
|
|
|
|
|
|||||
xy |
|
|
x |
y |
55,73 261,85 |
|
Коэффициент корреляции принимает значения от –1 до +1. Связи между признака-
ми могут быть слабыми и высокими (тесными). Эти критерии оцениваются следующим образом [4]:
Таблица 1. Шкала Чеддога
0,1< |
|
rxy |
|
<0,3 |
0,3< |
|
rxy |
|
<0,5 |
0,5< |
|
rxy |
|
<0,7 |
0,7< |
|
rxy |
|
<0,9 |
0,9< |
|
rxy |
|
<1 |
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||
слабая |
умеренная |
заметная |
высокая |
весьма высокая |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Связь между признаками также характеризует и знак коэффициента регрессии b
(или rxy ): если b 0, то связь между признаком Y и фактором X прямая, иначе – обратная.
В нашем примере rxy 0,7357 и связь между Y и X высокая и обратная.
Уравнение линейной парной регрессии для исходных данных имеет вид
|
|
|
|
|
y |
|
|
|
|
|
x 192,1 |
|||
y x rxy |
x x y 0,7357 |
|||||||||||||
|
|
|
|
261,85 715,33 3,457x 1379,42 |
||||||||||
|
|
|
|
|||||||||||
x |
55,73 |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
или
y |
x a bx 1379,42 3,46x. |
(9) |
5
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент b = –3,46 показывает среднее изменение результативного показателя
(в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением x на 1 единицу y понижается в среднем на –3,46. Коэффициент a = 1379,33 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко к выборочным значениям. Если же х=0
находится далеко от выборочных значений х, то буквальная интерпретация может привес-
ти к неверным результатам, и даже, если линия регрессии довольно точно описывает зна-
чения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого на-
блюдения.
4.3. Ошибка аппроксимации. Дисперсионный анализ.
Необходимо оценить качество уравнения линейной регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации (среднее отклонение рас-
четных значений от фактических) равна
|
|
1 |
n |
yi |
y |
xi |
1 |
n |
ei |
|
|
|
|
4,42 |
|
||||||
|
|
|
|
|
|
100%, |
A |
100% 14,72%. |
|||||||||||||
A |
|
|
|
|
|
|
|
100% |
|
|
|
|
|||||||||
n |
|
y |
i |
|
n |
|
y |
30 |
|||||||||||||
|
|
|
|
i 1 |
|
|
|
|
|
i 1 |
i |
|
|
|
|
|
|
Поскольку ошибка меньше 15%, то (9) можно использовать в качестве выборочного ли-
нейного уравнения парной регрессии.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой перемен-
ной c использованием тождества ( [2] – [5])
|
|
|
|
|
n |
|
n |
|
|
|
n |
|
|
|||||||||
|
|
|
|
|
yi |
y |
2 yi |
|
y |
xi 2 |
|
y |
xi |
y |
2 . |
|
|
|||||
|
|
|
|
|
i 1 |
|
i 1 |
|
|
|
i 1 |
|
|
|||||||||
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
n |
||||||
Здесь |
yi |
y |
2 |
n |
y2 – общая сумма |
квадратов отклонений, yi |
y |
xi 2 |
ei2 – |
|||||||||||||
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
i 1 |
|
i 1 |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|||||||
сумма |
квадратов |
отклонений, |
обусловленная регрессией; |
y |
xi |
y |
2 |
– остаточная |
i 1
сумма квадратов отклонений.
Степень близости связи признака Y и фактора X к линейной связи характеризует-
ся коэффициентом парной корреляции rxy. Для любой формы корреляционной зависимо-
сти теснота связи определяется с помощью выборочного корреляционного отношения [5]
6
|
n |
|
n |
|
||||||||
R 1 |
yi |
y |
xi 2 |
|
|
y |
xi |
y |
2 |
. |
||
i 1 |
i 1 |
|||||||||||
|
|
|||||||||||
|
n |
y2 |
|
|
|
n |
y2 |
|
При линейной регрессии Y на X выборочное корреляционное отношение равно
n
rxy , т.к. согласно (2) и (7) yi y xi 2 n y2 1 rxy2 .
i 1
Квадрат выборочного корреляционного отношения называется коэффициентом детерминации, который показывает долю вариации результативного признака, объяснен-
ную вариацией факторного признака. Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
В рассматриваемом случае R2 rxy2 0,73572 0,5413,, т.е. в 54.13 % случаев изме-
нения х приводят к изменению y. Другими словами, точность подбора уравнения линейной парной регрессии – средняя. Остальные 45.87 % изменения Y объясняются факторами,
не учтенными в модели.
4.4. Интервальная оценка для коэффициента корреляции.
Доверительный интервал для коэффициента корреляции rxy определяется форму-
лой ([1], [2])
|
|
|
|
|
|
|
1 |
r |
2 |
|
|
|
|
|
1 |
r |
2 |
|
||||
|
|
|
|
|
|
|
rxy tкрит |
|
|
xy |
; |
rxy tкрит |
|
|
xy |
. |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
n |
||||||||||||
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
||||||||
В нашем случае имеем |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
1 0,74 |
2 |
|
|
1 0,74 2 |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
или |
(–0,907; –0,.564) . |
|||
0,74 2,048 |
|
|
|
|
; 0,74 2,048 |
|
|
|
||||||||||||||
|
30 |
|
|
30 |
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Согласно нашим данным (см. [3]) t |
набл |
|
|
r |
|
|
|
n 2 |
0,74 |
28 |
5,82. |
||
|
|
||||||||||||
|
|
|
|
|
|
|
|
||||||
|
|
|
xy |
|
1 |
rxy2 |
|
1 0,74 2 |
|
||||
|
|
|
|
|
|
|
|
|
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=28 находим tкрит(n–m–1;α/2) = tкрит(28; 0.025) = 2.048, где m = 1 - количество объясняющих перемен-
ных. Поскольку в нашем случае tнабл > tкрит, то отклоняем гипотезу о равенстве нулю ко-
эффициента корреляции. Другими словами, коэффициент корреляции статистически значим.
4.5. Интервальные оценки параметров уравнения регрессии.
Несмещенной оценкой дисперсии возмущений является величина
2 |
|
yi |
y |
xi 2 |
|
ei2 |
943589,84 |
|
|
Sy |
|
n m 1 |
|
|
|
|
33699,64. |
||
|
28 |
||||||||
|
|
|
n m 1 |
|
7
S2y = 33699,64 – необъясненная дисперсия (мера разброса зависимой переменной вокруг
линии регрессии); Sy Sy2 33699,64 183,57– стандартная ошибка оценки (стан-
дартная ошибка регрессии).
Для стандартного отклонения Sa случайной величины a имеем
|
|
|
|
xi2 |
|
|
|
|
|
|
|
|
|
|
1200261 |
|
|||
S |
a |
S |
y |
i |
183,57 |
120,28. |
|||
n |
|
|
|||||||
|
|
x |
|
30 55,73 |
В свою очередь, стандартное отклонение Sb случайной величины b равно
Sb |
|
Sy |
|
|
183,57 |
|
0,6. |
||||
|
|
|
|
|
|
|
|
||||
n |
x |
30 55,73 |
|||||||||
|
|
|
|
|
Определим доверительные интервалы коэффициентов регрессии, которые с надеж-
ность 95% будут следующими (см. [1], [2], [4]): |
|
a tкритSa; a tкритSa и (1132,98; |
1625,67), |
b tкритSb;b tкритSb и (–4,69; |
–2,22) |
С вероятностью 95% можно утверждать, что значения параметров и бу-
дут лежать в найденных интервалах.
4.6. Проверка гипотез относительно уравнения линейной парной регрессии.
F – статистика
Проверка значимости модели линейной регрессии проводится с использованием
F–критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии ос-
таточной последовательности для данной модели.
Если расчетное значение Fтабл с k1=m и k2=n-m-1 степенями свободы больше фак-
тического значения F при заданном уровне значимости, то модель считается значимой,
где m – число факторов в модели.
Оценка статистической значимости линейной регрессии производится по следую-
щему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически не-
значимо: H0: R2=0 на уровне значимости α.
2. Далее определяется фактическое значение F– критерия [4]:
F |
R2 |
|
n m 1 |
F |
0,542 |
|
30 1 1 |
||
|
|
|
, |
|
|
|
11,53, |
||
|
|
|
1 0,542 |
1 |
|||||
1 R2 |
|
m |
|
|
где учтено, что m=1 для парной регрессии.
8