- •Тема 1: Предмет, метод, основные категории статистики
- •Тема 2: Статистическое наблюдение
- •Тема 3: Статистическая сводка и группировка
- •Тема 4: Средние величины
- •Степенные средние
- •Структурные средние
- •Тема 5: Вариация признака
- •Тема 6: Выборочный метод анализа
- •Тема 7: Индексы. Индексный метод анализа
- •Тема 8: Ряды динамики
- •Тема 9: Статистическое изучение взаимосвязей
- •Вопрос I Сущность и виды связей между признаками
- •Вопрос II Методы выявления корреляционной связи
- •Вопрос III Нахождение уравнений регрессии
- •Вопрос IV
- •Вопрос V Статистическая оценка существенности выборочных характеристик связи
- •Рекомендуемый список литературы
Вопрос II Методы выявления корреляционной связи
Для выявления наличия и характера корреляционной связи в статистике используется ряд методов: сопоставления параллельных рядов; графический метод; метод аналитических группировок и корреляционных таблиц.
Метод сопоставления параллельных рядов.
При небольшом числе наблюдений наличие корреляционной связи между двумя признаками Х и у часто можно выявить визуально, путем простого параллельного сравнения их значений у отдельных единиц.
Для этого единицы наблюдения располагаются по возрастанию факторного признака Х и затем сравнивают с ним поведение значений результативного признака У. Недостаток метода заключается в том, что он не позволяет определить количественную меру связи между изучаемыми показателями.
Например, имеются данные по 10 однотипным предприятиям о стоимости основных средств производства Х и валовом выпуске продукции У. (Предприятия расположены по возрастанию значений Х).
Таблица II.1
Основные показатели деятельности предприятий (условные данные)
Предприятие |
Стоимость основных средств производства, млн. руб.
Хi |
Валовой выпуск продукции, млн. руб.
Уi |
Знаки отклонений от средней величины |
|
|
|
|||
1 2 3 4 5 6 7 8 9 10 |
12 16 25 38 43 55 60 80 91 100 |
28 40 38 65 80 101 95 125 183 245 |
- - - - - + + + + + |
- - - - - + - + + + |
Итого |
520 |
1000 |
|
|
В приведенном примере по мере увеличения значений Х увеличиваются и значения У, хотя в отдельных случаях после возрастания наблюдается и уменьшение значений результативного признака. В целом же можно говорить, что чем больше стоимость основных средств, тем больше валовой выпуск продукции, т.е. связь между Х и У прямая.
Такое «субъективное» суждение о наличии корреляционной связи обычно сопровождается расчетом того или иного показателя, используемого для измерения тесноты связи: коэффициента Фехнера, ранговых коэффициентов корреляции, линейного коэффициента корреляции.
Коэффициент Фехнера (коэффициент корреляции знаков) – простейший показатель тесноты связи. Он основан на сравнении поведения отклонений индивидуальных значений каждого признака (Х и У) от своей средней величины. При этом во внимание принимаются не величины отклонений и , а их знаки ( «+» или «-» ). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений и несовпадений. Если совпадение знаков обозначить символом С, а несовпадений – Н, то коэффициент Фехнера можно записать как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:
Если знаки всех отклонений по каждому признаку совпадут, то и тогда . Это характеризует наличие прямой связи. Если все знаки не совпадут, то
И тогда (обратная связь). Если же , то . Коэффициент Фехнера может принимать значения от 0 до ±1. При этом, чем ближе значение к 1, тем больше (сильнее) теснота зависимости между х и у.
По приведенному примеру коэффициент Фехнера составит:
Такое значение показатели тесноты связи характеризует сильную зависимость.
Поскольку коэффициент Фехнера зависит только от знаков и не учитывает величину самих отклонений Х и У от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление. Так, в рассматриваемом примере по значению и знаку коэффициента Фехнера можно сказать, что между Х и У существует прямая корреляционная связь.
Графический метод.
Представление о связи можно получить при помощи ее графического изображения.
Несгруппированный материал располагают в системе координат, - откладывая на абсциссе значения факторного признака Х, на ординате – значения результативного признака У, получая, таким образом, диаграмму рассеивания.
При исследовании связи по диаграмме рассеивания принимают во внимание следующее: 1) Направление связи определяют по положению точек в системе координат. Если точки расположены слева снизу направо вверх – связь прямая. Если точки расположены сверху направо вниз – связь обратная;
2) О тесноте связи судят по плотности расположения точек;
3) В большинстве случаев нельзя получить определенных данных о форме связи, так как ее перекрывает рассеивание. Чем сильнее рассеивание, тем труднее судить о форме связи. Связь будет видна из графика гораздо отчетливее, если в системе координат вместо точек, представляющих отдельные величины, дать положение групповых средних. Соединив эти точки ломаной линией, получают эмпирическую линию связи.
Исследуя связь по эмпирической линии связи, можно установить следующее:
1) Как и при диаграмме распределения, направление связи получают из положения линии в системе координат. Если эмпирическая линия связи проходит параллельно абсциссе, связь распознать нельзя;
2)Форма связи проясняется яснее, так как образование групповых средних исключает вариацию внутри групп.
Построение корреляционных таблиц
Вначале проводят группировку значений факторного и результативного признаков.
В корреляционной таблице факторный признак х, как правило, располагают в строках, а результативный признак у – в столбцах (графах) таблицы. Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту fij повторения данного сочетания значения х и у.
Таблица II.2
Макет заполнения корреляционной таблицы
|
У1 |
У2 |
Уj |
Уn |
Итого |
|
Х1 |
f11 |
f12 |
f1j |
f1n |
Σf1j |
|
Х2 |
f21 |
f22 |
f2j |
f2n |
Σf2j |
|
Хi |
fi1 |
fi2 |
fij |
fin |
Σfij |
|
Хm |
fm1 |
fm2 |
fmj |
fmn |
Σfmj |
|
Итого |
Σfi1 |
Σfi2 |
Σfij |
Σfin |
- |
|
|
|
|
|
|
|
- |
Если частоты расположены в таблице беспорядочно, то можно утверждать, что между факторами связь отсутствует, а если они образуют какой-либо порядок, то между факторами допустима связь, причем прямая или обратная, если частоты концентрируются около одной из диагоналей таблицы. При прямой связи в движении слева направо частоты располагаются вокруг воображаемой диагонали, идущей сверху вниз, а при обратной – вокруг воображаемой диагонали, идущей снизу вверх.
Например, установим взаимосвязь балансовой прибыли со стоимостным выпуском продукции по данным интервальной группировки 40 фирм, приведенным ниже:
Таблица II.3
Выпуск продукции, Х, млн. руб. |
Балансовая прибыль, У, млн.руб. |
Число фирм |
300-400 400-500 500-600 600-700 700-800 |
10-20, 20-30, 30-40 20-30, 30-40, 40-50 30-40, 40-50, 50-60 40-50, 50-60 50-60 |
2; 4; 2 1; 5; 3 4; 8; 2 2; 4 3 |
По средним данным интервальной группировки заполняется корреляционная таблица:
Таблица II.4
Выпуск Х, млн.руб |
Балансовая прибыль У, млн.руб |
Итого |
|
||||
15 |
25 |
35 |
45 |
55 |
|||
350 450 550 650 750 |
2 4 2 - - |
- 1 5 3 - |
- - 4 8 2 |
- - - 2 4 |
- - - - 3 |
2 5 11 13 9 |
15,0 17,0 26,82 34,23 46,11 |
Итого |
8 |
9 |
14 |
6 |
3 |
40 |
|
|
450 |
572 |
636 |
717 |
750 |
|
- |
Корреляционная таблица свидетельствует о наличии прямой связи между выпуском продукции и балансовой прибылью фирм, поскольку их количества расположились вокруг диагонали, идущей сверху вниз направо.
Метод аналитических группировок
Чтобы выявить зависимость с помощью этого метода, необходимо произвести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее или относительное значение результативного признака. Недостаток данного метода заключается в том, что он не позволяет определить форму (аналитическое выражение) влияния факторных признаков на результативный.
На этапе теоретического обоснования модели при построении аналитической группировки решаются две задачи: выбор факторных признаков и определение числа групп и границ интервалов. Решение первой из этих задач целиком основывается на качественном анализе изучаемых явлений.
Установление числа групп и границ интервалов определяется целями группировки. При построении аналитической группировки главная цель заключается в получении наиболее полной и достоверной характеристики линии регрессии. При этом приходится учитывать два противоречащих друг другу требования. С одной стороны, для более детального описания формы линии регрессии, и, следовательно, для более полного описания связи признаков, желательно выделить как можно больше групп. Но, с другой стороны, увеличение числа групп ведет к уменьшению числа единиц в каждой из них и, следовательно, уменьшает надежность групповых средних.
Например, имеются данные по 20 туристическим фирмам о затратах на рекламу, усл. ден.ед. (факторный признак, Х) и количестве туристов, воспользовавшихся услугами каждой фирмы, чел. (результативный признак, У). Для удобства дальнейших расчетов расположим предприятия в порядке возрастания факторного признака.
Таблица II.5
N |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
Х |
8 |
8 |
8 |
9 |
9 |
9 |
9 |
9 |
10 |
10 |
10 |
10 |
10 |
11 |
11 |
11 |
11 |
12 |
12 |
12 |
У |
800 |
850 |
720 |
850 |
800 |
880 |
950 |
820 |
900 |
1000 |
920 |
1060 |
950 |
900 |
1200 |
1150 |
1000 |
1200 |
1100 |
1000 |
Так как в приводимом примере факторный признак представлен всего пятью вариантами повторяющихся значений, при проведении группировки выделим пять групп.
По каждой выделенной группе рассчитаем средние значения результативного признака.
Таблица II.6
Группы туристических фирм по затратам на рекламу, усл. ден.ед. |
Число фирм в группе
|
Среднее число туристов. Воспользовавшихся услугами данной группы фирм, человек
|
8 |
3 |
790,0 |
9 |
5 |
860,0 |
10 |
5 |
966,0 |
11 |
4 |
1062,5 |
12 |
3 |
1100,0 |
Итого |
20 |
952,5 |
Сравнив средние значения результативного признака по группам, можно сделать вывод, что рост затрат туристических фирм на рекламу влечет за собой увеличение числа клиентов, пользующихся услугами фирмы, т.е. в рассматриваемом примере можно предположить наличие прямой корреляционной зависимости между признаками.
Корреляционная зависимость отчетливо обнаруживается только при рассмотрении средних значений результативного признака, соответствующих определенным значениям факторного признака, так как при достаточно большом числе наблюдений в каждой группе влияние прочих случайных факторов при расчете групповой средней будет взаимопогашаться, и четче выступит зависимость результативного признака от фактора, положенного в основу группировки. Иными словами, предполагается, что все прочие причины, если они носят случайный характер, при определении средней по группам взаимопогашаются, т.е. дают в каждой группе один и тот же результат. Следовательно, различия в величине средних будут связаны только с различиями в величине данного факторного признака.
Методика измерения тесноты связи по результатам аналитической группировки вытекает из правила сложения дисперсий: ( Общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий).
По приведенному примеру рассчитаем вначале общую дисперсию. Общая дисперсия признака У не зависит от группировки, и ее удобно вычислить по индивидуальным значениям признака У:
=
Вычислим межгрупповую дисперсию:
Внутригрупповую дисперсию можно вычислить, используя правило сложения дисперсий:
Общая дисперсия отражает различия фирм по количеству туристов в результате действия всех существующих факторов. Межгрупповая – характеризует вариацию результативного признака, связанную с вариацией признака, положенного в основание группировки. Внутригрупповая – характеризует вариацию результативного признака, связанную с вариацией всех факторных признаков, кроме признака, по которому построена группировка.
Правило сложения дисперсий приобретает, таким образом, в аналитической группировке следующий смысл. Из общей дисперсии выделяются две составные части, одна из которых (межгрупповая дисперсия) связана с группировочным признаком, а вторая (внутригрупповая) не связана с ним. Показатель, характеризующий тесноту связи, определяется как отношение вариации, связанной с действием группировочного признака и общей вариации, возникающей под действием всех причин. Этот показатель называется эмпирический коэффициент детерминации (η2).
Квадратный корень из эмпирического коэффициента детерминации – эмпирическое корреляционное отношение( η).
Если связь отсутствует, то η=0. В данном случае все групповые средние будут равны между собой и межгрупповой вариации не будет.
Когда η=1, связь между признаками функциональная. В этом случае не будет внутригрупповой вариации.
Чем значения корреляционного отношения ближе к единице, тем теснее связь между признаками.
В нашем примере эмпирическое корреляционное отношение составит:
=
Следовательно, связь между рассматриваемыми признаками тесная.