Анализ данных. Корреляционный анализ
Для проведения исследования соберем данные по ноутбукам и оформим их в таблицу (приложение 1). Обозначим цену на компьютеры как y, x1 – память (RAM), x2 – вес ноутбука, x3 – диагональ. d1 – фиктивная переменная, равная 1 при наличии процессора Core 2 Duo и нулю при его отсутствии. R1, R2 и R3 – также фиктивные переменные, указывающие на бренд производителя. R1 равен 1 у компьютеров марки HP, R2 – Toshiba и R3 – Acer (включение в модель фиктивных переменных рассмотрено в отдельной главе).
Построим графики корреляционного поля (геометрическое место точек, координаты которых соответствует паре чисел x и y) для каждой из переменных. Так же построим линию тренда (приложение 2)
Так как из графиков 1, 2 и 3 приложения 2 видно, что тренд имеет форму прямой во всех 3 случаях, мы можем принять гипотезу о наличии линейной зависимости между переменными y, x1, x2, x3.
Вычислим показатель тесноты корреляционной зависимости (линейный коэффициент корреляции) для каждого x. Он рассчитывается по формуле:
. Так как , а, то.
Используем для расчетов коэффициентов корреляции в MSExcel функцию КОРРЕЛ() или в Eviews на панели управления выбираем View/Correlations. Таким образом получим r1=0,33, r2=0,37, r3=0,34. Все 3 показателя находятся в интервале (0; 0,5], это означает, что между y и рассматриваемыми факторами существует слабая прямая корреляционная зависимость.
Проверим статистическую значимость выборочных коэффициентов корреляции. Докажем, можно ли судить на основе выборки о свойствах генеральной совокупности, то есть являются ли выборочные показатели существенными и значимыми для принятия предположений о наличии данного свойства в генеральной совокупности.
Примем гипотезу о том, что в генеральной совокупности нет корреляции при уровне значимости α=0,05
Ho: ρ=0
H1: ρ≠0
Гипотеза проверяется с помощью специального показателя, разработанного на основе выборки. Этот показатель называется статистическим критерием. Он вычисляется по формуле:
t является случайной величиной, имеющей распределение Стьюдента.
tкрит
tкрит
Значение t, где область принятия гипотезы пересекается с областью отклонения от гипотезы называется критическим tкрит ( заштрихованная область – область отклонения гипотезы).
На основе данных выборки вычисляем tнабл и сравниваем с tкрит. Критические значения затабулированы, рассчитаем их с помощью функции СТЬЮДРАСПОБР(), используя MSExcel.
Если |tнабл|> tкрит (α;n-2) данные наблюдений не дают оснований для принятия нулевой гипотезы об отсутствии корреляции в генеральной совокупности с уровнем ошибки α. Принимаем альтернативную гипотезу о том, что корреляция в генеральной совокупности есть, но это не дает оснований для того, чтобы судить о силе. Выборочный коэффициент является существенным, значимым для того, чтобы судить о наличии корреляции в генеральной совокупности. Отличие корреляции от 0 не является случайным.
Если |tнабл|< tкрит(α;n-2) данные наблюдений не дают оснований для отклонение нулевой гипотезы. Корреляции в генеральной совокупности нет, это мы можем утверждать с вероятностью α. Коэффициент корреляции статистически незначим, его отличие от 0 случайно.
Рассчитаем tнабл для каждого из x.
Ho: ρ=0
H1: ρ≠0
Для x1 tнабл = 1,85
tкрит(α=0,05;n-2=34)=2,03
|tнабл|< tкрит коэффициент корреляции r1 статистически не значим, его отклонение от 0 случайно.
Для х2 tнабл = 2,16
|tнабл|> tкрит коэффициент корреляции r2 статистически значим, его отклонение от 0 неслучайно.
Для х3 tнабл = 1,97
|tнабл|< tкрит коэффициент корреляции r3 статистически не значим, его отклонение от 0 случайно.