Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Задача 3.doc
Скачиваний:
855
Добавлен:
01.04.2015
Размер:
3.24 Mб
Скачать

§ 5. Корреляционная таблица

При большом числе наблюдений одно и то же значение х может встретиться nx раз, одно и то же значение у — ny раз, одна и та же пара чисел (х, у) может наблюдаться nxy раз. Поэтому данные наблюдений группируют, т. е. подсчитывают частоты nx, ny, nxy. Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной.

Поясним устройство корреляционной таблицы на примере табл. 13.

Таблица 13

Y

х

10

20

30

40

ny

0,4

0,6

0,8

5

-

3

-

2

19

7

6

-

14

4

-

26

12

22

nx

8

21

13

18

n=60

В первой строке таблицы указаны наблюдаемые значения (10; 20; 30; 40) признака X, а в первом столбце— наблюдаемые значения (0,4; 0,6; 0,8) признака Y. На пересечении строк и столбцов находятся частоты nxy наблюдаемых пар значений признаков. Например, частота 5 указывает, что пара чисел (10; 0,4) наблюдалась 5 раз. Все частоты помещены в прямоугольнике, стороны которого проведены жирными отрезками. Черточка означает, что соответственная пара чисел, например (20; 0,4), не наблюдалась.

В последнем столбце записаны суммы частот строк. Например, сумма частот первой строки «жирного» прямоугольника равна ny = 5+7+ 14 = 26; это число указывает, что значение признака Y, равное 0,4 (в сочетании с различными значениями признака X), наблюдалось 26 раз.

В последней строке записаны суммы частот столбцов. Например, число 8 указывает, что значение признака X, равное 10 (в сочетании с различными значениями признака Y), наблюдалось 8 раз.

В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений n). Очевидно, . В нашем примере

= 8+21+13+18=60 и = 26+12+22 = 60.

§ 6. Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным

В § 4 для определения параметров уравнения прямой линии регрессии Y на Х была получена система уравнений

(*)

Предполагалось, что значения Х и соответствующие им значения Y наблюдались по одному разу. Теперь же допустим, что получено большое число данных (практически для удовлетворительной оценки искомых параметров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы. Запишем систему (*) так, чтобы она отражала данные корреляционной таблицы. Воспользуемся тождествами:

(следствие из );

(следствие из );

(следствие из ),

(учтено, что пара чисел (х, у) наблюдалась nxy раз).

Подставив правые части тождеств в систему (*) и сократив обе части второго уравнения на n, получим

Решив эту систему, найдем параметры ρyx и b и, следовательно, искомое уравнение

= ρyx х + b.

Однако более целесообразно, введя новую величину — выборочный коэффициент корреляции, написать уравнение регрессии в ином виде. Сделаем это. Найдем b из второго уравнения (**):

B = — ρyx.

Подставив правую часть этого равенства в уравнение = ρyx х + b, получим

= ρyx (x—). (***)

Найдём *) из системы (*) коэффициент регрессии, учитывая, что (см. гл. XVI, § 10):

.

Умножим обе части равенства на дробь :

.

Обозначим правую часть равенства через rв и назовем ее выборочным коэффициентом корреляции (см. замечание 3):

.

Подставим rв в (****):

.

Отсюда

.

Подставив правую часть этого равенства в (***), окончательно получим выборочное уравнение прямой линии регрессии Y на Х вида

.

Замечание 1. Аналогично находят выборочное уравнение прямой линии регрессии Х на Y вида

,

где .

Замечание 2. Уравнения выборочных прямых регрессии можно записать в более симметричной форме:

.

Замечание 3. Выборочный коэффициент корреляции является оценкой коэффициента корреляции

.

Действительно, используя метод моментов (см. гл. XVI. § 21), т. е. заменив числовые характеристики их оценками, получим

.