Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
41
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать

Описательная статистика и таблицы

В этом модуле реализованы процедуры вычисления основных выборочных характеристик, анализа закона распределения, построения таблиц. После выбора этого модуля в переключателе Statistics на экране появляется вложенное меню – список доступных видов анализа:

Descriptive statistics - Описательные статистики;

Correlation Matrixes - Корреляционные матрицы;

t-test, independent, by group - t-критерий для независимых выборок;

t-test, independent, by variables -t-критерий для независимых переменных;

t-test, dependent samples - t-критерий для зависимых выборок;

t-test, single sample - t-критерий для одной переменной;

Break down&one-way ANOVA - Группировка и однофакторный ANOVA;

Frequency Tables - Таблицы частот;

Tables and Banners - Таблицы и заголовки;

Multiple response tables - Множественные сравнения

Difference tests - Тесты различия;

Probability Calculator - Вероятностный калькулятор.

Активизированные команды списка в дальнейшем отображаются на панели задач в нижней части экрана.

2.1. Descriptive statisticsОписательная статистика. Предварительный анализ выборочных данных предполагает вычисление основных выборочных характеристик и визуализацию распределения переменных. С помощью переключателя модулей (пункт главного меню Statistics) выберите модуль Basic Statistics/Tables и в нем пункт Descriptive Statistics. В диалоговом окне укажите необходимые переменные (ЧИСЛО_КОМНАТ, ПЛОЩАДЬ, СТОИМОСТЬ или все). Закладки модуля Quick, Advanced, Normality, Prob&Scatterplots, Categ.plots, Options позволяют выбирать методы анализа и производить настройки.

2.1.1. Закладка Quick (быстрые расчеты) содержит пункты: Summary – Итоги расчета основных статистик, Frequency Tables – таблицы частот, Histograms – гистограммы, Box&Whiskers plots – диаграммы размаха. Описание средств визуализации более детально рассматриваются в п.3. Расположенные в правой полосе окна кнопки позволяют задать настройки (Options), условия выбора (S), учет весов (W).

2.1.2. Закладка Advanced (расширенные возможности) содержит полный список основных статистик и позволяет выбрать все необходимые характеристики:

Valid N - число наблюдений без пропусков;

Mean - выборочное среднее;

Sum - сумма значений переменной;

Median - медиана;

Mode - мода;

Geom. Mean - геометрическое среднее;

Harm. Mean - гармоническое среднее;

Standard Deviation - стандартное отклонение;

Variance - выборочная дисперсия;

Std err. of mean - стандартная ошибка среднего;

Conf. Limits for mean- доверительные границы для среднего;

Skewness - выборочный коэффициент асимметрии;

Std.Err.Skewness - стандартная ошибка коэфф. асимметрии;

Kurtosis - выборочный коэффициент эксцесса;

Std.Err.Kurtosis - стандартная ошибка коэфф. Эксцесса;

Minimum - минимальное значение переменной;

Maximum - максимальное значение переменной;

Lower&upper quartiles - верхний и нижний квартили;

Percentile boundaries - процентные точки;

Range - размах вариации.

Расчетные формулы и комментарии для всех перечисленных понятий приведены в Приложении.

Для переменных выборки flat.sta, используя закладки Quick и Advanced, вычислите выборочные характеристики и сохраните их.

2.1.3. Закладка Normality позволяет выполнить тест на нормальность распределения. Здесь также выведены кнопки частотных таблиц (Frequency Tables) и построителя гистограмм (Histograms). Число интервалов (категорий) можно задать в соответствующем окошке. Описание средств визуализации (3D histograms, Categorized histograms, Steam & leaf plot) приводится в п.3.

2.1.4. Закладка Prob&Scatterplots служит для построения вероятностных графиков, диаграмм рассеяния при установлении зависимостей между двумя и более переменными.

График нормальных вероятностей (Normal probability plot) позволяет сопоставить ожидаемые нормальные частоты (Expected Normal Value) значений переменных с наблюдаемыми частотами. Выполните построение для переменной ЧИСЛО_КОМНАТ. Аналогичные графики можно получить для полунормальных вероятностей (Half-normal plots) и нормальные вероятностные графики без тренда (Detrended normal plots).

2.1.5. Закладка Categ.plots служит для построения категорированных графиков.

Этот вид анализа позволяет визуально оценить вариацию зависимой переменной по вариации одной, двух или более независимых переменных. В нашем примере СТОИМОСТЬ зависит от ЧИСЛА_КОМНАТ, ЭТАЖА, ПЛОЩАДИ. Влияющие (независимые) переменные должны быть разбиты на группы (интервалы) – категории. Отсюда и название – категорированные (Categorized) графики, т.е. графики вариации зависимой переменной по категориям независимой.

Categorized box & whiskers plot – это категорированные диаграммы размаха. Они представляют значения зависимой переменной следующим образом: Mean – средние значения; ±SD – отклонения в пределах ±1 стандартного отклонения от среднего; ±1,96*SD – отклонения в пределах ±1,96 стандартного отклонения от среднего.

Выполните построение такой диаграммы: нажмите кнопку Categorized box & whiskers plot и укажите в качестве зависимой переменной СТОИМОСТЬ. После нажатия OK в диалоговых окнах выбора группирующих переменных укажите одну – ЧИСЛО_КОМНАТ; далее в окошке кодов категорий укажите все (All) или некоторые из них (в данном примере число комнат само служит категорией). Попробуйте провести анализ для двух группирующих переменных ЧИСЛО_КОМНАТ и ЭТАЖ.

Другие виды категорированных диаграмм – Categorized means (interaction) plots, Categorized histograms, Categorized scatterplot – также служат для визуального анализа вариации. Для выбранных трех переменных можно построить поверхность значений (Surface plot). Кнопка Scatterplot matrix представляет матрицу диаграмм рассеяния (см. п 2.2).

2.1.6. Закладка Options позволяет сделать необходимые настройки графиков.

2.2. Correlation Matrixes - Корреляционные матрицы. Здесь предполагается вычисление линейных коэффициентов корреляции для двух и более переменных. В случае выявления тесно коррелирующих переменных можно в дальнейшем сократить число переменных в анализе.

Переменные можно задать одним или двумя списками – от этого зависит вид полученной корреляционной матрицы. Например, при задании двух переменных в одном списке матрица имеет размер 2х2, т.е. вычисляются все парные коэффициенты корреляции (включая и корреляцию переменной с самой собой), а при задании двух переменных в двух разных списках матрица имеет размер 1х1.

Задайте в одном списке переменные ЧИСЛО_КОМНАТ, ПЛОЩАДЬ, ЭТАЖ, СТОИМОСТЬ. Нажав на закладке Quick кнопку Summary:Correlation matrix (Итоги: корреляционные матрицы), получите матрицу размера 4х4 коэффициентов корреляции с уровнем значимости 0,05.

Теперь попробуйте задать эти переменные в двух списках – по две в каждом. Сравните полученные матрицы.

Кнопка Scatterplot matrix представляет матрицы диаграмм рассеяния, которые отображают для каждой пары переменных разброс точек наблюдаемых значений пары признаков относительно их теоретической линии связи (линии регрессии).

Закладки Advanced/plot и Option предоставляют расширенные возможности и настройки.

2.3. t-tests – это критерии сравнения средних в двух группах данных. Используются для установления однородности или различия групп на основе t-распределения Стьюдента.

Для проведения этого теста данные уже должны быть представлены в виде двух колонок, отображающих значения одного и того же признака-переменной в разных условиях наблюдений. Эти колонки будут соответствовать двум группам наблюдений, возникшим под воздействием некоторого, возможно неизвестного фактора.

Другой вариант анализа – когда данные представлены в виде общей таблицы, но один из признаков-переменных изменяется на двух уровнях. Указав в настройках t-теста соответствующие коды, можно получить информацию о различи средних, а также диаграммы размаха и др.

Для рассматриваемого примера анализа таблицы flat.sta можно применить t-тест следующим образом. Пусть требуется проанализировать различие средних значений СТОИМОСТИ при варьировании ЧИСЛА_КОМНАТ. Вначале отсортируем таблицу по возрастанию переменной ЧИСЛО_КОМНАТ. Для этого надо выделить все строки таблицы и, выбрав пункт главного меню Data, применить команду сортировки Sort. Далее в модуле Basic Statistics выбрать t-test, independent, by group (тест для независимых выборок), указать зависимую переменную СТОИМОСТЬ и группирующую переменную ЧИСЛО КОМНАТ. Задав коды группирующей переменной 2 и 3, получите таблицу результатов.

2.4. Break down & one-way ANOVA - Группировка и однофакторный ANOVA (Analysis Of Variance - Дисперсионный анализ) позволяет выполнить группировку наблюдений зависимой переменной по какой-либо влияющей переменной, которая допускает разбиение на группы (категории), и оценить степень влияния с помощью разложения дисперсий.

В рассматриваемом примере такой переменной может быть ЧИСЛО КОМНАТ с категориями 1,2,3 и т.д. В диалоговом окне пункта Break down & one-way ANOVA задайте зависимую (Dependent) переменную СТОИМОСТЬ и переменную группировки (Grouping) ЧИСЛО_КОМНАТ; в качестве кодов группировки укажите все (All) и просмотрите итоги в окне внутригрупповых статистик (Statistics by GroupsResults).

В закладке Quick представлены:

- итоговые таблицы (Summary: Tables of statistics) вариации средней стоимости по группам (т.е. по числу комнат);

- подробные двухфакторные таблицы (Detailed two-way tables) – если первоначально указано более двух факторов, эта команда представит анализ попарно;

- анализ дисперсий (Analysis Of Variance) – значения сумм квадратов отклонений: объясненной (SS Effect) и остаточной (SS Error), их степени свободы (df), дисперсии (MS Effect, MS Error), F-отношения и p-значения вероятности.

Последующие закладки служат для долее детального анализа.

2.5. Frequency Tables – Таблицы частот соответствуют разбиению наблюдений на интервалы и вычисляют частотные характеристики. Допускается построение гистограмм и тест на нормальность распределения. Стандартное число интервалов – 10. Задать другое их число можно на закладке Advanced.

2.6. Tables and BannersТаблицы и заголовки. Этот пункт позволяет строить достаточно сложные аналитические таблицы с группировкой по нескольким переменным. Процесс построения таблицы частот для одной переменной называется табуляцией, для нескольких переменных – кросстабуляцией.

Закладка Crosstabulations позволяет строить Таблицы сопряженности. Выберите команду Specify Tables (Задать таблицы) и в появившемся окне выберите группирующие переменные – ЧИСЛО_КОМНАТ и ЭТАЖ (или СТОИМОСТЬ и ЭТАЖ). Далее после нажатия OK можно просмотреть итоговые таблицы в окне Cross tabulation Results (Результаты кросстабуляции). Если при этом задать опцию Проценты от общего числа, то в итоговой таблице отобразятся частотные характеристики по группам и их процентный состав.

Таблицы сопряженности позволяют компактно описывать данные и допускают визуализацию при нажатии в окне Cross tabulation Results (Результаты кросстабуляции) кнопки Categorized histograms (Категорированные гистограммы).

2.7. Multiple Response Tables – представляет таблицы множественных или многократных сравнений. Используется для сравнения более двух независимых групп данных.

Выполнив все задания п.2 на примере таблицы flat.sta, вы познакомитесь с основными возможностями системы STATISTICA. Для более детального изучения рекомендуется использовать большие массивы данных, которые хранятся в папке Examples системы STATISTICA, а также обращаться к ее справочной службе: электронное руководство.

Подробный разбор примеров анализа с использованием различных методов приведен в разделе II методических указаний.