Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3 часть SPSS.docx
Скачиваний:
4
Добавлен:
17.04.2019
Размер:
40.94 Кб
Скачать

14. Назначение, содержание и возможности дискриминантного анализа

Для эффективного контроля за независимыми переменными, которые могут оказывать преобладающее влияние на распределение ответов респондентов, может быть использован регрессионный анализ. Основное преимущество этого метода в том, что он позволяет устанавливать роль той или иной причины «в чистом виде», изолированно от действия других факторов – когда влияние этих других факторов на интересующие нас показатели контролируются.

Уточним, из чего складывается регрессионный анализ. В общем смысле термином регрессия обозначается статистика, отражающая влияние предиктора на зависимую переменную.

Регрессионный анализ используется чаще всего, если мы используем переменные, измеренные по количественным шкалам.

Упрощенная модель регрессионного анализа применительно, скажем, к ранее выявленным связям между половой принадлежностью и уверенностью в профессии дипломата выглядит:

ПОЛ → УВЕРЕННОСТЬ В ПРОФЕССИИ ← ДРУГИЕ ФАКТОРЫ

То, есть предполагается, что есть много других факторов (кроме половой принадлежности), которые влияют на различия в уровне уверенности в профессии. Эти факторы мы пытались выявлять при построении различных трехмерных связях. Однако их выявление не позволяло зафиксировать силу их влияния, тем более, совместную силу влияния, под воздействием которой роль половой принадлежности снижается.

А вот это не знаю ребят нужно или нет, слишком много математики:

Формально запись указанной модели с учетом данного примера выглядит:

Y= f (X) + Z

Где Y – зависимая переменная (уверенность в профессии), Х – показатель половой принадлежности (независимая переменная), f – функция, описывающая силу и форму влияния X на Y, Z – все остальные факторы, влияющие на Y.

Задача регрессионного анализа: подобрать функцию f, которая будет наилучшим образом описывать зависимость Х и Y.

Начнем поиск функции f с линейных функций. Они проще и удобнее.

При использовании линейной функции f предыдущее выражение примет вид:

Yi= bxi + а. Это уравнение простой или парной регрессии. Здесь одна независимая переменная. Уравнение с двумя и более независимыми переменными представляет множественную регрессию.

В этом выражении b – коэффициент регрессии, задающий угол наклона прямой, а -свободный член или константа. Константа - это расстояние от начала координат до точки пересечения прямой с осью Y.

Чтобы объявить уравнение прямой статистической моделью, добавим в нее элемент, выражающий случайную ошибку (с), поскольку не все точки расположены точно вдоль прямой.

Yi= а + bxi + c;

Линия регрессии – это прямая, построенная методом наименьших квадратов. Прямая в таком случае должна лежать максимально близко ко всем точкам графика, т.е. сумма расстояний от всех точек до искомой прямой должна быть наименьшей. Метод вычисления коэффициента регрессии основа на минимизации суммы расстояний. Для этого высчитывается сумма квадратов расстояний.

Метод решения задачи вычислении параметров регрессии путем минимизации выражения S2 =с12+с22+с32+с42 называется методом наименьших квадратов. Где S2 – сумма квадратов, с12+с22+с32+с42 - квадраты расстояний от каждой отдельной точки до прямой. Параметры (с) можно назвать ошибками. Чтобы представить ошибку модели, надо нарисовать для каждой точки вертикальный отрезок, который бы соединил эту точку с прямой. Длины этих отрезков называются остатками и являются оценками истинных ошибок.

Если известны средние, стандартные отклонения и корреляции rxy Пирсона , то сумма квадратов ошибок (т.е. сумму квадратов длин вертикальных отрезков) минимальна, если:

b= rxy σy / σx.

Таким образом, если на некоторой выборке измерены две переменные, которые коррелируют друг с другом, то, вычислив коэффициенты регрессии, мы получаем принципиальную возможность предсказания неизвестных значений одной переменной по известным значениям другой. Например, на основе известной роли половой принадлежности мы можем предсказывать, что у студентов МО, представителей мужского пола уверенность в профессии дипломата будет всегда выше.

Максимально точным было бы это предсказание, если rxy = 1. Тогда каждому значению Х будет соответствовать только одно значение Y, а все ошибки оценки равны 0 (все точки на графике рассеивания будут лежать на прямой регрессии).

Напротив, если бы rxy = 0, т.е. все оценки равны среднему значению, то прямя регрессии была бы параллельной оси Х.

Дисперсия оценок зависимой переменной Y – это та ее часть полной дисперсии , которая обусловлена влиянием независимой переменной Х. Отношение оценок зависимой переменной к ее истинной дисперсии и отражает величину квадрата коэффициента корреляции (R2).

R2= σ2yi / σ2xi.;

Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции. Итак, квадрат коэффициента корреляции (R Square) зависимой и независимой переменной представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации.

Коэффициент детерминации R2xy показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.

Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции r Пирсона. Корреляция Пирсона не является линейной функцией связи между двумя переменными. Она носит вероятностный характер. В отличие от коэффициента корреляции r Пирсона R2 линейно возрастает с увеличением силы связи. На этом основании можно внести три градации по силе связи:

R <= 0,3- слабая связь (менее 10% от общей дисперсии);

0,3 <R <= 0,7 – умеренная связь (от 10 до 50% от общей доли дисперсии);

R > 0,7 - сильная связь (50% и более от общей доли дисперсии).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]