Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lection.DOC
Скачиваний:
22
Добавлен:
23.08.2019
Размер:
2.5 Mб
Скачать

9. Регрессионный анализ

9.1. Общие сведения. Регрессионный анализ (далее - РА) - это статистический метод изучения изменения значений одной переменной от изменения значений другой переменной на единицу измерения. В широком смысле РА изучает связь между переменными, зависимость одной переменной от другой и влияние одной переменной на другую. Однако, в отличии от коэффициента корреляции и дисперсионного анализа РА дает ответ на один очень важный вопрос: как изменится значение одной переменной, если значение другой переменной изменилось на некоторое количество единиц ее измерения. Такого рода задача может возникнуть в том случае, если необходимо знать какой тестовый балл окажется у испытуемого по тесту А, если нам известен его тестовый балл по тесту Б и насколько возрастет (уменьшится) тестовый балл данного испытуемого по одному тесту, если изменится тестовый балл по другому. В качестве еще одного примера применения РА можно привести следующие задачи:

  1. Как изменится мотивация персонала фирмы, если зарплата будет увеличена на определенное количество денежных единиц.

  2. Насколько изменится спрос на товар, если общее время показа рекламы по телевидению увеличится на определенное количество минут.

  3. Насколько точно можно оценить успеваемость по интеллекту.

  4. Как изменится самооценка подростка, если его социометрический статус возрастет.

  5. Как зависит оценка студента на экзамене от успеваемости в течение семестра.

Правда, нужно отметить, что для решения такого рода задач необходима предварительная статистика, т.е. исследователь должен располагать данными измерений двух случайных величин, зависимость одной из которых от другой он исследует.

9.2. Задачи и вычислительные процедуры РА. Основные задачи РА - решение уравнений регрессии и построение линии регрессии. Основное уравнение линейной регрессии выглядит следующим образом:

, где:

Y - изучаемый признак, переменная, которая испытывает на себе влияние другой переменной;

X - переменная, оказывающая влияние на переменную Y;

a - коэффициент регрессии, определяющий наклон линии регрессии по отношению к осям X иY;

b - константа, определяющая высоту линии регрессии над осью X.

По сути - это уравнение прямой в декартовой системе координат и решение уравнения регрессии сводится к нахождению коэффицента регрессии и свободного члена в уравнении регрессии, которые определяются по формулам:

;

.

Аналогичным образом можно построить уравнение зависимости не только Y от X, но и X от Y, что требует замены переменных местами. Однако, статистика не может заменить собой логики, и поэтому математически такая перестановка осуществима, но логически может быть совершенно не оправдана. Можно, например, изучать зависимость успеваемости от интеллекта у школьников первого класса, но вряд ли целесообразно будет изучение зависимости интеллекта от успеваемости у тех же школьников, если интеллект у них формировался задолго до того, как появилась успеваемость. Вопрос о причинно-следственных связях в таких случаях всегда остается на совести исследователя.

Следующей задачей РА является построение линии регрессии, которая отражает изменение значения одной переменной от изменения значения другой. Здесь необходимо сказать, что линия регрессии показывает не действительные, а только наиболее вероятные значения Y, что нисколько не умаляет достоинств РА. Во-первых, дело в том, что эмпирические данные при одном значении X могут содержать некоторый разброс значений Y, что естественно для случайных величин. РА покажет, в таком случае, как раз те значения, которые следует ожидать при увеличении количества наблюдений. Во-вторых, по уравнению регрессии можно определить наиболее вероятные значения Y по гипотетическим значениям X, т.е. тем, которые не встречаются в эмпирических данных, поэтому довольно часто в статистике линию регрессии называют еще линией предсказания.

9.3. Эмпирическая задача. Необходимо установить зависимость между успеваемостью студентов факультета психологии ДГУ по математическим методам в психологии в течении семестра, определенной по 18-бальной рейтинговой системе (min=0; max=18) и итоговой оценкой на экзамене (по привычной 5-бальной системе). Исходные данные и расчеты представлены в таблице 1. Достаточно беглого вгляда, чтобы заметить, что между двумя случайными величинами существует достоверная связь. Однако коэффициента корреляции (rx,y = 0.825) недостаточно, чтобы определить какую оценку студента на экзамене можно прогнозировать при 6-ти или 13-ти баллах, т.е. при тех значениях X, которые отсутствуют в эмпирических данных.

Таблица 9.1. Данные для регрессионного анализа

Испытуемые

Семестр (X)

Экзамен (Y)

XY

X*X

1

И.М.

3

2

6

9

2

А.С.

5

2

10

25

3

С.О.

5

3

15

25

4

М.В.

7

3

21

49

5

Ф.О.

7

3

21

49

6

М.Б.

8

4

32

64

7

О.С.

8

4

32

64

8

П.Г.

8

3

24

64

9

Ч.А.

8

4

32

64

10

Б.Б.

9

3

27

81

11

Б.А.

9

4

36

81

12

Н.О.

9

3

27

81

13

Х.С.

9

3

27

81

14

Г.Е.

10

4

40

100

15

Г.Ж.

10

3

30

100

16

Р.Г.

10

3

30

100

17

Д.О.

11

4

44

121

18

З.В.

11

5

55

121

19

В.Л.

12

5

60

144

20

Ф.А.

12

4

48

144

21

К.Е.

14

5

70

196

22

Л.А.

14

5

70

196

23

М.Л.

14

4

56

196

24

П.О.

14

4

56

196

25

Е.Д.

15

4

60

225

26

К.Д.

15

5

75

225

27

Л.Е.

15

4

60

225

28

Б.Е.

16

5

80

256

29

М.М.

16

4

64

256

30

О.М.

16

5

80

256

31

Р.С.

16

5

80

256

32

Д.Е.

17

5

85

289

33

З.И.

17

5

85

289

34

Х.И.

17

5

85

289

35

Ч.Е.

18

5

90

324

Суммы

405

139

1713

5241

Средние

11,57

3,97

Уравнение регрессии:

Сейчас по полученному уравнению можно рассчитать наиболее вероятные значения оценки на экзамене, зная оценку в течении семестра. Так при 6-ти баллах в семестре оценка студента на экзамене будет равна 2.92 (т.е. не выше тройки), при 13-ти баллах – 4.24 (достаточно твердая четверка), а для получения отличной оценки вполне достаточно 17-ти баллов, т.к. .

9.4. Построение линии регрессии. На рис 9.1. видна построенная по эмпирическим данным (точки) и результатам вычислений линия регрессии. Линия регрессии проходит через точки, которые соответствуют наиболее вероятным значениям одной переменной при соответствующих значениях другой и, при этом, она всегда проходит через точку с координатами, соответствующим средним арифметическим двух переменных.

Р ис. 9.1. Диаграмма рассеивания X (полученные в семестре баллы) и Y (оценка на экзамене) с построенной эмпирической линией регрессии.

Построенная таким образом линия в общем виде определяет зависимость одной переменной от другой и при интерпретации результатов регрессионного анализа необходимо учитывать, что в них не отражены отдельные случаи, как например, очень низкое значение одной переменной при высоком значении другой, хотя если и появится такой случай, то он обязательно повлияет как на уравнение, так и на линию регрессии.

9.5. Достоверность линии регрессии и уравнения регрессии. После того, как вычислен коэффициент регрессии, его достоверность может быть определена по формуле:

, где

В нашем примере tэмп = 8.39. Полученное значение сравнивается с критическими значениями t-критерия Стьюдента с n-2 числом степеней свободы. Если tэмп превышает t0.01, то коэффициент регрессии и линия регрессии могут быть признаны достоверными. Что касается данного примера, то t0.01 = 2.75, и, следовательно, коэффициент регрессии и линия регрессии достоверны.

9.6. Ограничения в применении РА. РА применим только по отношению к переменным, которые выражены в шкале интервалов или отношений. И, хотя в приведенном выше примере использовалась шкала оценки на экзамене, которая не является шкалой равных интервалов, тем не менее в ней можно подсчитать средние и дисперсию, что является обязательным требованием к шкалам используемым в РА. Вторым ограничением в применении РА является то, что обе переменные должны находится по отношению друг к другу либо в функциональной, либо в статистической зависимости. Если одна из случайных величин является константой, то РА теряет смысл: коэффициент регрессии окажется равен нулю, а на графике линия регрессии будет выражаться прямой, параллельной оси X.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]