Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
40
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать
  1. Примеры выполнения статистического анализа

  1. Предварительная обработка и t-тесты

Главные понятия

В этом примере основное внимание уделено анализу корреляций переменных и выполнению t-тестов. Используются количественные характеристики связи переменных: коэффициент ковариации, оценивающий совместную изменчивость двух переменных и линейный коэффициент корреляции, оценивающий тесноту линейной связи. Из них формируются матрица ковариаций и корреляционная матрица. Расчетные формулы и комментарии приведены в Приложении.

Напомним, что t-тесты (t-tests) – это критерии сравнения средних в двух группах данных. Используются для установления однородности или различия групп и включают такие типы анализа:

- t-test, independent, by groups t-критерий для независимых выборок, сравнение групп. Предполагается, что случайная величина определена на двух подмножествах (группах), которые, возможно, принадлежат одной совокупности. Из каждого множества производят выборки значений с целью установить однородность или различие двух групп. Разбиение на две на группы определяется одной группирующей переменной;

- t-test, independent, by variablest-критерий для независимых выборок, сравнение переменных выполняется с целью установления однородности двух групп, когда разбиение определяется несколькими переменными.

- t-test, dependent samplest-критерий для зависимых выборок, сравнение наблюдений. Рассматриваются две сопоставимые случайные величины из одного множества, которые можно рассматривать как признаки одного явления, с целью оценки различия. Анализируются разности значений этих случайных величин и устанавливается значимость различия;

- t-test, single samplest-критерий значимости средних. Используется для проверки гипотез о равенстве среднего нулю или другому значению.

Пример 1.1 Описательная статистика, t-тесты и корреляции

Пример основан на данных, собранных при анализе рекламы, когда респонденты, мужчины и женщины, оценивали рекламы двух напитков.

Данные взяты из файла adstudy.sta, представляющего выборку из 50 строк (респонденты) и 25 столбцов. Пол респондентов закодирован в переменной GENDER(пол): male(мужчины), female(женщины). Каждому респонденту предлагалось оценить рекламу одного из двух напитков: (ADVERT: Coke, Pepsi). Оценка производилась по 23 пунктам (Measure01 – Measure23) в баллах (0-9).

Цель анализа: анализ корреляций переменных и различий между группами.

Из меню Statistics откройте стартовую панель Basic Statistics and Tables. С помощью команды File/Open Examples откройте таблицу adstudy.sta с готовыми статистическими данными.

Корреляции. На панели Basic Statistics and Tables выберите Correlation matrices (корреляционные матрицы) и нажмите OK. Отобразится диалоговое окно Product-Moment and Partial Correlations. Переменные можно выбирать как в одном списке (One variable list квадратная таблица), так и в двух списках (Two lists прямоугольная таблица). Выберите One variable list и укажите несколько переменных. После нажатия Summary появится электронная таблица с результатами.

По умолчанию электронная таблица покажет все коэффициенты корреляции, которые значимы с уровнем значимости p<0,05, выделив их другим цветом. Можно изменить уровень значимости для выделения значимых коэффициентов корреляции. Для этого нужно вернуться к окну Product-Moment and Partial Correlations, выбрать закладку Options и изменить p-уровень, например, на 0,001. Кнопкой Summary результат всех корреляций выводится на экран. В полученной таблице корреляция между Measure05 и Measure09 составляет -0,47. Значит, эти оценки могут измерять аналогичные аспекты восприятия рекламы (хотя и в противоположном направлении).

Для представления результата в электронной таблице с более подробной статистикой (например, p-значение, число сравнений N в случае отсутствия данных, R-квадрат регрессии, t-значение, и т.п.) используются две опции в Product-Moment and Partial Correlations. Если выбрать Display r, p-levels and N's в закладке Options, то вместе с коэффициентами корреляции будут отображаться также p-значение и pairwise N (если задана опция pairwise, исключаются наблюдения, отсутствующие в одном из столбцов, если же задано casewise – исключаются все пропущенные данные, и оставшееся число сравнений N будет отображено в заголовке таблицы).

Пункт Display detailed table of results в закладке Options Product-Moment and Partial Correlations доступен только тогда, когда для анализа выбрано менее 20 переменных. Тогда электронная таблица будет отображать описательную статистику, коэффициент корреляции, p-значение и pairwise N, а также коэффициенты уравнений регрессии для каждой переменной.

Как видно из таблицы, корреляция для Measure05 и Measure09 наиболее значима (p=0,0001); это означает, что ошибка, связанная с принятием этого результата только 1 из 10000.

Scatterplot (диаграмма рассеяния). Для того чтобы визуализировать корреляцию между переменными, вызовите диалог Product-Moment and Partial Correlations снова, перейдите на закладку Advanced/plot и нажмите кнопку 2D Scatterplots. Затем выберите Scatterplot, указав в диалоге переменные Measure05 и Measure09. В итоге отобразится диаграмма рассеяния для выбранной корреляции с линией регрессии, 95%-й доверительной границей и уравнением регрессии в заголовке.

Сравнение диаграмм рассеяния, полученных в проведенном анализе и посредством опции меню Graphs. Когда имеется много пропущенных данных или исключений в оценках переменных, графики строятся с помощью опций анализа (например, кнопка 2D Scatterplots из Product-Moment and Partial Correlations) и могут отличаться от тех, которые построены с использованием соответствующих опций меню Graphs.

Различия между средними выборок (t-тест). В следующем шаге анализа будет изучена вероятность различий в ответах, сформулированных мужчинами и женщинами. Для того чтобы идентифицировать потенциальные различия, используется t-тест для независимых выборок. Ответы мужчин и женщин будут сравниваться относительно их средних оценок в каждой шкале. В окне Basic Statistics and Tables выберите пункт t-test, independent, by groups (t-тест для независимых выборок, по группам) для вывода диалогового окна T-Test for Independent Samples by Groups.

Затем нажмите кнопку Variables (Переменные) и в стандартном диалоге выбора переменных укажите независимые (группирующие) и зависимые переменные. Для этого примера выбраны переменные Measure1 – Measure25 как зависимые переменные, GENDER – как независимая, группирующая переменная. Как только выбраны группирующие переменные, STATISTICA автоматически предлагает закодировать используемые переменные, чтобы идентифицировать группы, которые нужно сравнивать (в этом случае коды – Male и Female).

Другие процедуры доступны в закладке Advanced диалогового окна T-test for Independent Samples by Groups. Перед выполнением анализа можно увидеть распределение переменных с помощью графических опций. Например, перейдите на Box & whisker plot (Диаграмма размаха) и для задания области размаха переменных групп в диалоге Box-Whisker Type выберите Mean/SE/1.96*SE. Будет получено по одному графику для каждой зависимой переменной. Аналогично, для вывода гистограмм (сгруппированных переменных) используется Categorized Histograms.

Для просмотра распределения переменных в пределах каждой группы также доступны стохастические графики с нормальным распределением (Categorized normal probability plots), нормальные стохастические графики без тренда (detrended normal probability plots) и диаграммы рассеяния (scatterplots).

Теперь нажмите кнопку Summary, чтобы отобразить таблицу с результатами t-теста.

Просмотр итогов t-теста. Самый быстрый способ – изучить пятую колонку (p-уровни), обратив внимание на те значения p, которые меньше стандартного уровня значимости 0,05. Для большинства зависимых переменных выборки в двух группах (Males и Females) результаты аналогичны. Единственная переменная, для которой t-тест меньше стандартного уровня значимости 0,05 – это Measure07: для нее p-значение равно 0,0087. Обратите внимание на столбцы, содержащие средние (первые два столбца): очевидно, что мужчины использовали более высокие оценки (5,46), чем женщины (3,63). Нельзя полностью исключить возможность, что это различие случайно (различие на этом уровне случайно в 9 случаях из 1000).

Вернитесь к диаграмме whisker, которая получена выше (или выведите этот граф еще раз, щелкнув на кнопке Box&whisker в диалоговом окне). Затем выберите граф для переменной Measure07; двойным щелчком на графе выведите диалоговое окно All Options, перейдите на вкладку Box/Whisker и установите Middle point на Mean, Whisker value на Std.dev. Теперь нажмите кнопку OK, чтобы отобразить скорректированный граф.

Граф показывает, что вариация в группе женщин проявляется значительно больше, чем у мужчин. Если дисперсии оценок в пределах двух групп сильно отличаются, то не выполнено одно из теоретических предположений t-теста (однородность дисперсии), и нужно относиться к разнице между выборками осторожно. Кроме того, различия в дисперсиях обычно соответствуют значениям переменных, а именно, изменчивость обычно более высокая в группах с более высокими значениями. Однако в данном случае происходит иное. В ситуациях, подобных этой, опытные исследователи должны предположить, что распределение Measure07 не является нормальным (у женщин, мужчин, или в обеих группах).

Проверка различия дисперсий (Test of difference between variances). Теперь вернитесь к таблице результатов T-test for independent Samples by Gpoups и переместите скролл вправо до F-ratio (F-отношения) Оно фактически соответствует стандартному уровню значимости 0,05, и это означает, что дисперсии Measure07 в группах мужчин и женщин существенно отличаются. Тем не менее, различие дисперсий относительно близко к граничному уровню значимости (полученное p-значение равно 0,029). Большинство исследователей не считают этот факт достаточным для того, чтобы полностью отбросить достоверность t-теста, давшего сравнительно высокий уровень значимости этой разницы (p=0,0087).

Теперь рассмотрим, как распределено Measure07 по независимым категориям GENDER.

Гистограмма распределения. Нажав правой кнопкой мыши по электронной таблице результатов, вызовите контекстное меню, в котором выберите Graphs of Input Data, затем 2D Histogram by и т.д.

В промежуточном диалоге можно выбрать зависимую переменную для гистограммы (выберем значение GENDER – Пол), а для того чтобы увидеть различие групп или категорий, выберем All codes (Все коды). Затем нажмем кнопку OK для вывода графика.

Не проводя строгой проверки гипотез нормального распределения, из гистограммы видим, что распределение оценок женщин не является нормальным. Таким образом, в t-тесте нарушены два предположения: о нормальном распределении и об однородности дисперсий. Следовательно, различие по группам мужчин и женщин в оценке Measure07 нельзя признать существенным.