Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы анализа данных.docx
Скачиваний:
22
Добавлен:
06.06.2015
Размер:
125.53 Кб
Скачать

3.2.Коэффициент корреляции Пирсона.

Коэффициент корреляции Пирсона характеризует существование линейной зависимости между двумя величинами.

Пусть даны две выборки коэффициент корреляции Пирсона рассчитывается по формуле: где – выборочные средние и – выборочные дисперсии, .

Коэффициент корреляции Пирсона называют также теснотой линейной связи:

  •  линейно зависимы,

  •  линейно независимы.

Статистическая проверка наличия корреляции

Гипотеза: : отсутствует линейная связь между выборками и ().

Статистика критерия:

 – распределение Стьюдента с степенями свободы.

Критерий:

, где есть α-квантиль распределения Стьюдента.

Слабые стороны

  • Неустойчивость к выбросам.

  • С помощью коэффициента корреляции Пирсона можно определить силу линейной зависимости между величинами, другие виды взаимосвязей выявляются методами регрессионного анализа.

  • Необходимо понимать различие понятий "независимость" и "некоррелированность". Из первого следует второе, но не наоборот.

Для того, чтобы выяснить отношение между двумя переменными, часто необходимо избавиться от влияния третьей переменной. 

Коэффициент частной корреляции. мера линейной зависимости между двумя случайными величинамииз некоторой совокупности случайных величин в том случае, когда исключено влияние остальных. Когда есть 3й признак, который обуславливает 2 переменные. Когда есть разброс – объясненное и необъясненное. Если вводим 3й признак – уходит объясненное или нет?

4.Сравнение статистик и распределений признаков в двух и более группах: параметрические методы анализа данных. Основные задачи, решаемые при помощи параметрических методов. Возможности и ограничения данного класса методов (типы переменных, объем выборки, размеры групп и групповые дисперсии). Одновыборочный т-тест. Т-тест для двух независимых выборок. Критерий Фишера и однофакторный дисперсионный анализ. Межгрупповые и внутригрупповые различия, оценка значимости различий, описание содержания различий.

Параметрические методы проверки гипотез о равенстве средних нулю (нулевые гипотезы) предполагают нормальность распределения анализируемых переменных. Однако условие нормальности выборки при анализе анкетной информации выполняется весьма редко. Решение проблемы - создание новых переменных путем усреднения множества независимых случайных данных. Проверка на нормальность – Колмагоров – Смирнов, визуально (скошенность, пикообразность и т.п.). Параметрические методы работают с ПАРАМЕТРАМИ распределения (дисперсией, средним). Ограничения: выборка больше 100 объектов, главное, чтобы Мо была нормальной.

Одновыборочный t-тест предназначен для проверки гипотезы о равенстве математического ожидания переменной (среднее значение с.в.) заданной величине (H0: m = m0 ). , распределена по закону Стьюдента с– 1 степенями свободы. Пример. Есть предположение, что малообразованное население имеет доход, существенно меньший, чем доход более образованной его части. Это утверждение не абсолютно, а выполняется «в среднем». Мы проверим его, исследовав различие средних логарифмов доходов в указанных группах. По существу это означает сравнение средних геометрических дохода. Если уровень значимости sig< 0,05  Н0 отклоняется (гипотеза о рав-ве мат ож-я Log дохода).

Двухвыборочный t-тест. Для сравнения средних в 2х выборках. При усл-и, что генеральная совокупность имеет нормальное распределение. Насколько случайный характер носит различие средних – выбор t-статистик (имеют распределение Стьюдента) от предположения о равенстве дисперсий. Если известно равенство дисперсий, то исп-т формулу, для знаменателя которой вычисляется (Sp – несмещенная оценка дисперсии)² - объединенная дисперсия. Для проверки равенства дисперсий используется статистика Ливиня, имеющая распределение Фишера. Двусторонней наблюдаемой значимостью, вычисляемой процедурой T-TEST, является вероятность в условиях гипотезы равенства матожиданий случайно получить большее значение статистики t: Sig = P{│t-теоретическое│>│t-выборочное│}. Если значимость близка к 0, делаем вывод о неслучайном характере различий средних значений в выборках. Пр. сравнение средних логарифмов душевых доходов в группах населения до 30 лет и старше.

Двухвыборочный t-тест для связанных выборок. Если на одних и тех же объектах дважды измеряется некоторое свойство - проверка значимости различия средних. Переменные x и y м.б. характеристиками мужа и жены при исследовании семей. Проверка значимости мат ожиданий х и у = проверка гипотезы о рав-ве 0 мат ожиданий (х-у). Дисперсия разности - y равна (- y) =(x) + D(y) - 2 cov (X,Y). Отсюда точность оценки матожиданий - y связана с ковариацией x и y. Этот тест – для панельных исследований хорош.

Одномерный дисперсионный анализ. MEANS. вычисление межгруппового квадратичного разброса зависимой переменной SSв и внутригруппового разброса - SSw . Величина SSв характеризует, насколько сильно отклонились от общего среднего средние между группами, а SSw – отклонения от центров групп. . Имеет распределение Фишера. F - расстояние наблюдаемой таблицы от таблицы, в которой нет никаких зависимостей, т. е. средние в группах совпадают. Важное усл-е – нормальность распред-я зависимой переменной!

ONEWAY. ОДА. Смысл: различаются ли несколько групп по определенному признаку. Решение задачи сравнения средних для трех и более выборок. В качестве группообразующей – одна характеристика, поэтому анализ – однофакторный. По смыслу является продолжением двухвыборочного Т-ТЕСТА. Ее преимущества перед процедурой MEANS состоят в возможности исследования равенства дисперсий в группах, проведения множественных сравнений. Наша задача сравнить: SSw > SSв – наш дифференцирующий признак не такой, и существует латентный признак, объясняющий различия. H0: явный признак не является дифференцирующим (средние значения статистически значимо не отличаются в обозначенных группах), H1: хотя бы одно среднее статистически значимо отличается. Если F=1, принимаем H0 (неопределенность), если F<1- принимаем H0, F>1- принимаем H1.

Множественные сравнения – сравнение групповых средних, т.к. если много независимых таблиц сопряженности пар переменных, то невозможно найти связь точно. Суть задачи: какие средние статистически значимо отличаются от средних значений признаков в других группах: 1) ищут группы, в которых средние значения статистически значимо не отличаются друг от друга (Тьюки). 2) ищут группы со статистически значимо различающимися средними (Шеффе, Бонферрони). Метод Бонферрони: Более строгий ур-нь значимости для попарных сравнений. Метод Шеффе построен на контрастах (линейная комбинация средних в группах). С его помощью проверяется гипотеза равенства нулю сразу всех контрастов, не только тех, что сравнивают пары групп. Критерий Тьюки основан на одновременных доверительных интервалах разности матожиданий в группах. Не предполагает одновременное рав-во матожид. СМОТРЕТЬ: 1) доверит интервалы (персек/нет) 2) дисперсии в гр различаются/нет 3) дисперс анализ sig < 0,05 связь, отвергается гипотеза о рав-ве средних (отличаются).

КОРРЕЛЯЦИИ: 1. ПАРНЫЕ. Пирсон. r – коэффициент корреляции Пирсона; число наблюдений (объектов) в скобках и значимость коэффициента корреляции. Коэф-т корреляции Пирсона между переменными X и Y вычисляется .значения от –1 до +1. При этом значимый отрицательный коэф корреляции позволяет принять гипотезу о наличии линейной отрицательной связи. Ограничения: 1) использование интервальных переменных, 2) Желательно нормальное распределение или близкое к нему, 3) отсутствие выбросов, 4) Нет подвыборок, которые усилят линейную зависимость или маскируют ее. 5) Дисперсии признака У должна быть равномерна для всех значений Х.

Ранговые коэффициенты корреляции менее надежны, лучше воспользоваться несколькими. Лояльны к выбросам, можно использовать для переменных, которые имеют распределение, отличное от нормального. По-сути коэффициент ранговой корреляции является коэффициентом корреляции между переменными, преобразованными в ранги (или процентили)  не требуется делать предположения о распределении данных. 1) Исключаем значения, не несущие смысловой нагрузки (999), 2) Упорядочить значения переменной от наименьшего к наибольшему, чтобы цифровое значение совпадало с содержательным (1-плохо, 5-хорошо). Если большое количество связанных рангов, то не используем Спирмена (если ранговая переменная имеет небольшое количество значений).

2. ЧАСТНЫЕ. Пусть имеются переменные X, Y, Z. Что, если взаимосвязь между переменными X и Y обусловлена некоторой другой переменной Z? Проявляется при условии этой переменной? Для исследования - коэффициент частной корреляции. Его можно представить как коэффициент корреляции регрессионных остатков ex и ey уравнений: X = ax+bx ´ Z + ex; Y = ay+by ´ Z + ey . снимается часть зависимости, обусловленная третьей переменной, проявляется «чистая» взаимосвязь X и Y. Пр. Время, затраченное на покупки, и время на мытье посуды связаны положительно: чем больше человек тратит его на покупки, тем больше на посуду. Может быть, это определяется тем, что человек вообще занимается домашней работой?

5.Сравнение распределений признаков в двух и более группах: непараметрические методы анализа данных. Основные задачи, решаемые при помощи непараметрических методов. Возможности и ограничения данного класса методов (типы переменных, объем выборки, точность оценок). Проверка репрезентативности выборки и соответствия формы эмпирического распределения теоретическому: одновыборочные тесты (биномиальный тест, тест хи-квадрат, одновыборочный тест Колмогорова-Смирнова). Тесты для сравнения распределений в двух и более группах: тест Манна-Уитни, критерий Колмогорова-Смирнова для двух независимых выборок. Тест медиан, непараметрический дисперсионный анализ Краскела-Уоллиса.

Предназначены преимущественно для проверки статистических гипотез методами, не связанными с видом распределения совокупности.

Одновыборочные тесты. служат для проверки соответствия распределения выборки заданному. 1. Тест хи-квадрат. , Ei - ожидаемая частота i-го значения переменной, N– расчетная. Число степеней свободы теоретического распределения полагается равным – 1, где k – число значений исследуемой переменной. Эмпирическое правило: некорректно применять критерий, если E< 5, поскольку его распределение в этом случае не будет близко к теоретическому. Пример. Пусть согласно статистическим данным 30 % трудоспособного населения имеет возраст до 30 лет, 30 % от 30 до 40 лет и 40 % свыше 40 лет. Соответствует ли выборочное распределение признака «возраст» в обследовании «Курильские острова» распределению возраста в генеральной совокупности?

2.Тест, основанный на биномиальном распределении. Проверяется гипотеза о параметре биномиального распределения H0: p = p0. Например, действительно ли в ген совокупности вероятность встретить мужчину p = 0,5, а молодежь не старше 30 лет – с вероятностью p = 0,3. Программа подсчитывает число объектов m, имеющих заданные значения. На основании свойств биномиального распределения подсчитывается двусторонняя наблюдаемая значимость – вероятность с. В. в условиях биномиального распределения с параметром P отклониться от ожидаемого значения np больше, чем отклонилось выборочное значение m. 3.

3.Тест Колмогорова - Смирнова. Предназначен для проверки гипотезы о распределении в генеральной совокупности.Статистика критерия – абсолютная величина разности эмпирической и теоретической функций распределения: . В таблице результатов выдается двусторонняя значимость – вероятность в условиях гипотезы случайно превзойти выборочное значение статистики, фиксирующей отличие распределения от заданного.Например, проверим нормальности распределения доходов.

Тесты сравнения нескольких выборок. Для проверки гипотезы совпадения распределений в выборках.

1. Двухвыборочный тест Колмогорова - Смирнова. предназначен для проверки гипотезы о совпадении распределений в паре выборок. Есть распределение нормальное и наше. Z-распределение. Если =0, то распределения совпадают. Если нет, то смотрим на уровень значимости sig < 0,05 – НЕНОРМАЛЬНОЕ. Статистика критерия – абсолютная величина разности эмпирических функций распределения в указанных выборках: ,N1 и N2 – объемы выборок. Пример. Сравнение распределений доходов группы, готовой отдать острова или их часть, и группы, придерживающейся твердой позиции.

2. Тест медиан. позволяет сравнивать распределения исследуемой переменной сразу в нескольких группах. Значения исследуемой переменной делятся на 2 группы: больше медианы и меньше/равно медиане. Такое разделение м. считать заданием новой, дихотомической переменной. Вычисляется Т. сопряженности полученной дихотомической переменной и переменной, задающей груп­пы. Далее применяется хи-квадрат. Если величина на­блюдаемой значимости критерия мала рас­пределение исследуемой переменной в группах различается существенно. Пример. обследование проходило в 21 городе. Экспертным путем все города разделены на 4 типа: 1 - растущие, 2 - стабильные, 3 - крупные, 4 - гиганты. Исследуется связь доходов и типа населенного пункта.

3. Тесты для ранговых переменных. Для вычисления рангов объекты упорядочиваются от мин значения переменной к макс, и порядковые номера объектов считаются рангами.

1) Двухвыборочный тест Манна – Уитни. Сравнения распределений переменных в двух группах на основе сравнения рангов. Статистикой критерия = Σрангов объектов в меньшей группе. Критерием - средний ранг в указанной группе. Если средние ранги в группах существенно различны, то обнаруживается отличие распределений. Пример. Используя ранговый критерий, требуется сравнить по возрасту группу считающих, что острова нужно отдать по юридическим причинам, и группу имеющих иное мнение.

2) Одномерный дисперсионный анализ Краскэла - Уоллиса. В основе сравнения средних рангов заданного числа групп лежит одномерный дисперсионный анализ, в котором вместо значений переменных используются ранги объектов исследуемой переменной. Гипотеза Н0: равенство распред-й в группах. (нормированный межгрупповой разброс имеет распред близкое к х²). sig <0,05 – сущ-я связь.

Тесты для связанных выборок: связанные выборки - совокупности повторных измерений на одних и тех же объектах. Пр., доходы семьи в различных волнах панельного обследования. 1. 1.Двухвыборочный критерий знаков. Для исследования связи пары измерений Х и Y рассматриваются знаки разностей di = YiXi. Н0: В случае независимости измерений и отсутствия повторов значений di (связей) число знаков «+» (положительных di) должно подчиняться биномиальному распределению с параметром p = 0,5. Пр. какой характер имели изменения веса (кг) мужчин старше 30 лет в 1994 - 1995.

2. Двухвыборочный знаково-ранговый критерий Вилкоксона. Ранжируются абсолютные величины разностей di = YiXi. Затем рассматривается сумма рангов положительных и сумма рангов «-« разностей. Если связь между X и Y отсутствует и распределение одинаково, то эти две суммы д.б. примерно равны. Статистика критерия – стандартизованная разность этих сумм. Это проверка, не произошло ли м/у измерениями событие, существенно изменившее иерархию объектов? Пр. будет ли преобладать отрицательный ранг изменения веса мужчин старше 30 лет. 3.

3.Критерий Фридмана. Имеется k переменных. На каждом объекте независимо производится их ранжировка (по строке), затем вычисляется средний ранг по каждой переменной (по столбцу). Если все измерения независимы и равноценны (одинаково распределены), то все эти средние д. б. = (+ 1) 2 – среднему рангу в строке. Статистикой критерия является нормированная сумма квадратов отклонений средних рангов по переменным от общего среднего (+ 1) 2, которая имеет теор распределение хи-квадрат. Пр. значимых различий в измерениях веса по трем годам (если sig<0,05).