Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Краткий курс лекций по Теории статистики.doc
Скачиваний:
43
Добавлен:
16.09.2019
Размер:
1.26 Mб
Скачать

Вопрос II Методы выявления корреляционной связи

Для выявления наличия и характера корреляционной связи в статистике используется ряд методов: сопоставления параллельных рядов; графический метод; метод аналитических группировок и корреляционных таблиц.

Метод сопоставления параллельных рядов.

При небольшом числе наблюдений наличие корреляционной связи между двумя признаками Х и у часто можно выявить визуально, путем простого параллельного сравнения их значений у отдельных единиц.

Для этого единицы наблюдения располагаются по возрастанию факторного признака Х и затем сравнивают с ним поведение значений результативного признака У. Недостаток метода заключается в том, что он не позволяет определить количественную меру связи между изучаемыми показателями.

Например, имеются данные по 10 однотипным предприятиям о стоимости основных средств производства Х и валовом выпуске продукции У. (Предприятия расположены по возрастанию значений Х).

Таблица II.1

Основные показатели деятельности предприятий (условные данные)

Предприятие

Стоимость основных средств производства, млн. руб.

Хi

Валовой выпуск продукции, млн. руб.

Уi

Знаки отклонений от средней величины

1

2

3

4

5

6

7

8

9

10

12

16

25

38

43

55

60

80

91

100

28

40

38

65

80

101

95

125

183

245

-

-

-

-

-

+ + + + +

-

-

-

-

-

+

-

+

+

+

Итого

520

1000

В приведенном примере по мере увеличения значений Х увеличиваются и значения У, хотя в отдельных случаях после возрастания наблюдается и уменьшение значений результативного признака. В целом же можно говорить, что чем больше стоимость основных средств, тем больше валовой выпуск продукции, т.е. связь между Х и У прямая.

Такое «субъективное» суждение о наличии корреляционной связи обычно сопровождается расчетом того или иного показателя, используемого для измерения тесноты связи: коэффициента Фехнера, ранговых коэффициентов корреляции, линейного коэффициента корреляции.

Коэффициент Фехнера (коэффициент корреляции знаков) – простейший показатель тесноты связи. Он основан на сравнении поведения отклонений индивидуальных значений каждого признака (Х и У) от своей средней величины. При этом во внимание принимаются не величины отклонений и , а их знаки ( «+» или «-» ). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений и несовпадений. Если совпадение знаков обозначить символом С, а несовпадений – Н, то коэффициент Фехнера можно записать как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:

Если знаки всех отклонений по каждому признаку совпадут, то и тогда . Это характеризует наличие прямой связи. Если все знаки не совпадут, то

И тогда (обратная связь). Если же , то . Коэффициент Фехнера может принимать значения от 0 до ±1. При этом, чем ближе значение к 1, тем больше (сильнее) теснота зависимости между х и у.

По приведенному примеру коэффициент Фехнера составит:

Такое значение показатели тесноты связи характеризует сильную зависимость.

Поскольку коэффициент Фехнера зависит только от знаков и не учитывает величину самих отклонений Х и У от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление. Так, в рассматриваемом примере по значению и знаку коэффициента Фехнера можно сказать, что между Х и У существует прямая корреляционная связь.

Графический метод.

Представление о связи можно получить при помощи ее графического изображения.

Несгруппированный материал располагают в системе координат, - откладывая на абсциссе значения факторного признака Х, на ординате – значения результативного признака У, получая, таким образом, диаграмму рассеивания.

При исследовании связи по диаграмме рассеивания принимают во внимание следующее: 1) Направление связи определяют по положению точек в системе координат. Если точки расположены слева снизу направо вверх – связь прямая. Если точки расположены сверху направо вниз – связь обратная;

2) О тесноте связи судят по плотности расположения точек;

3) В большинстве случаев нельзя получить определенных данных о форме связи, так как ее перекрывает рассеивание. Чем сильнее рассеивание, тем труднее судить о форме связи. Связь будет видна из графика гораздо отчетливее, если в системе координат вместо точек, представляющих отдельные величины, дать положение групповых средних. Соединив эти точки ломаной линией, получают эмпирическую линию связи.

Исследуя связь по эмпирической линии связи, можно установить следующее:

1) Как и при диаграмме распределения, направление связи получают из положения линии в системе координат. Если эмпирическая линия связи проходит параллельно абсциссе, связь распознать нельзя;

2)Форма связи проясняется яснее, так как образование групповых средних исключает вариацию внутри групп.

Построение корреляционных таблиц

Вначале проводят группировку значений факторного и результативного признаков.

В корреляционной таблице факторный признак х, как правило, располагают в строках, а результативный признак у – в столбцах (графах) таблицы. Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту fij повторения данного сочетания значения х и у.

Таблица II.2

Макет заполнения корреляционной таблицы

У1

У2

Уj

Уn

Итого

Х1

f11

f12

f1j

f1n

Σf1j

Х2

f21

f22

f2j

f2n

Σf2j

Хi

fi1

fi2

fij

fin

Σfij

Хm

fm1

fm2

fmj

fmn

Σfmj

Итого

Σfi1

Σfi2

Σfij

Σfin

-

-

Если частоты расположены в таблице беспорядочно, то можно утверждать, что между факторами связь отсутствует, а если они образуют какой-либо порядок, то между факторами допустима связь, причем прямая или обратная, если частоты концентрируются около одной из диагоналей таблицы. При прямой связи в движении слева направо частоты располагаются вокруг воображаемой диагонали, идущей сверху вниз, а при обратной – вокруг воображаемой диагонали, идущей снизу вверх.

Например, установим взаимосвязь балансовой прибыли со стоимостным выпуском продукции по данным интервальной группировки 40 фирм, приведенным ниже:

Таблица II.3

Выпуск продукции, Х, млн. руб.

Балансовая прибыль, У, млн.руб.

Число фирм

300-400

400-500

500-600

600-700

700-800

10-20, 20-30, 30-40

20-30, 30-40, 40-50

30-40, 40-50, 50-60

40-50, 50-60

50-60

2; 4; 2

1; 5; 3

4; 8; 2

2; 4

3

По средним данным интервальной группировки заполняется корреляционная таблица:

Таблица II.4

Выпуск Х, млн.руб

Балансовая прибыль У, млн.руб

Итого

15

25

35

45

55

350

450

550

650

750

2

4

2

-

-

-

1

5

3

-

-

-

4

8

2

-

-

-

2

4

-

-

-

-

3

2

5

11

13

9

15,0

17,0

26,82

34,23

46,11

Итого

8

9

14

6

3

40

450

572

636

717

750

-

Корреляционная таблица свидетельствует о наличии прямой связи между выпуском продукции и балансовой прибылью фирм, поскольку их количества расположились вокруг диагонали, идущей сверху вниз направо.

Метод аналитических группировок

Чтобы выявить зависимость с помощью этого метода, необходимо произвести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее или относительное значение результативного признака. Недостаток данного метода заключается в том, что он не позволяет определить форму (аналитическое выражение) влияния факторных признаков на результативный.

На этапе теоретического обоснования модели при построении аналитической группировки решаются две задачи: выбор факторных признаков и определение числа групп и границ интервалов. Решение первой из этих задач целиком основывается на качественном анализе изучаемых явлений.

Установление числа групп и границ интервалов определяется целями группировки. При построении аналитической группировки главная цель заключается в получении наиболее полной и достоверной характеристики линии регрессии. При этом приходится учитывать два противоречащих друг другу требования. С одной стороны, для более детального описания формы линии регрессии, и, следовательно, для более полного описания связи признаков, желательно выделить как можно больше групп. Но, с другой стороны, увеличение числа групп ведет к уменьшению числа единиц в каждой из них и, следовательно, уменьшает надежность групповых средних.

Например, имеются данные по 20 туристическим фирмам о затратах на рекламу, усл. ден.ед. (факторный признак, Х) и количестве туристов, воспользовавшихся услугами каждой фирмы, чел. (результативный признак, У). Для удобства дальнейших расчетов расположим предприятия в порядке возрастания факторного признака.

Таблица II.5

N

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Х

8

8

8

9

9

9

9

9

10

10

10

10

10

11

11

11

11

12

12

12

У

800

850

720

850

800

880

950

820

900

1000

920

1060

950

900

1200

1150

1000

1200

1100

1000

Так как в приводимом примере факторный признак представлен всего пятью вариантами повторяющихся значений, при проведении группировки выделим пять групп.

По каждой выделенной группе рассчитаем средние значения результативного признака.

Таблица II.6

Группы туристических фирм по затратам на рекламу, усл. ден.ед.

Число фирм в группе

Среднее число туристов. Воспользовавшихся услугами данной группы фирм, человек

8

3

790,0

9

5

860,0

10

5

966,0

11

4

1062,5

12

3

1100,0

Итого

20

952,5

Сравнив средние значения результативного признака по группам, можно сделать вывод, что рост затрат туристических фирм на рекламу влечет за собой увеличение числа клиентов, пользующихся услугами фирмы, т.е. в рассматриваемом примере можно предположить наличие прямой корреляционной зависимости между признаками.

Корреляционная зависимость отчетливо обнаруживается только при рассмотрении средних значений результативного признака, соответствующих определенным значениям факторного признака, так как при достаточно большом числе наблюдений в каждой группе влияние прочих случайных факторов при расчете групповой средней будет взаимопогашаться, и четче выступит зависимость результативного признака от фактора, положенного в основу группировки. Иными словами, предполагается, что все прочие причины, если они носят случайный характер, при определении средней по группам взаимопогашаются, т.е. дают в каждой группе один и тот же результат. Следовательно, различия в величине средних будут связаны только с различиями в величине данного факторного признака.

Методика измерения тесноты связи по результатам аналитической группировки вытекает из правила сложения дисперсий: ( Общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий).

По приведенному примеру рассчитаем вначале общую дисперсию. Общая дисперсия признака У не зависит от группировки, и ее удобно вычислить по индивидуальным значениям признака У:

=

Вычислим межгрупповую дисперсию:

Внутригрупповую дисперсию можно вычислить, используя правило сложения дисперсий:

Общая дисперсия отражает различия фирм по количеству туристов в результате действия всех существующих факторов. Межгрупповая – характеризует вариацию результативного признака, связанную с вариацией признака, положенного в основание группировки. Внутригрупповая – характеризует вариацию результативного признака, связанную с вариацией всех факторных признаков, кроме признака, по которому построена группировка.

Правило сложения дисперсий приобретает, таким образом, в аналитической группировке следующий смысл. Из общей дисперсии выделяются две составные части, одна из которых (межгрупповая дисперсия) связана с группировочным признаком, а вторая (внутригрупповая) не связана с ним. Показатель, характеризующий тесноту связи, определяется как отношение вариации, связанной с действием группировочного признака и общей вариации, возникающей под действием всех причин. Этот показатель называется эмпирический коэффициент детерминации (η2).

Квадратный корень из эмпирического коэффициента детерминации – эмпирическое корреляционное отношение( η).

Если связь отсутствует, то η=0. В данном случае все групповые средние будут равны между собой и межгрупповой вариации не будет.

Когда η=1, связь между признаками функциональная. В этом случае не будет внутригрупповой вариации.

Чем значения корреляционного отношения ближе к единице, тем теснее связь между признаками.

В нашем примере эмпирическое корреляционное отношение составит:

=

Следовательно, связь между рассматриваемыми признаками тесная.