Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистические методы в психологии.doc
Скачиваний:
515
Добавлен:
14.04.2015
Размер:
2.29 Mб
Скачать

3. Количественное описание выборочных данных

После построения и заполнения таблиц выборочными данными приступают к их числовому описанию. Определяют объем – количество данных и диапазон изменения случайной величины в выборке – разницу между максимальным и минимальным значением в выборке (размах). Для построения гистограммы– выборочного (статистического) образа функции плотности вероятности диапазон изменения случайной величины размечается на интервалы (карманы) и запускается процедура сортировки данных, которая отмечаетчастоты– числа попаданий данных из выборки в соответствующие карманы и строит соответствующее графическое изображение. Различают абсолютные и относительные частоты. Последние определяются как числа попаданий в интервалы-карманы, деленные на объем выборки(общее количество данных). Сумма относительных частот в гистограмме равна 1, а сами относительные частоты могут быть выражены в процентах.

Назначение карманов чаще всего эквидистантное, т.е. с равным шагом. Эмпирическое правило выбора шага – в каждый карман должно попадать не менее 5 выборочных значений. Например, если минимальное значение в выборке равно 10, максимальное – 100, а объем выборки равен 80, то следует назначить не более 80/5 = 16 карманов; выберем число карманов 15 в диапазоне [10,100] с равным шагом в (100 – 10)/15 = 6, тогда границы интервалов карманов задаются числами 10, 16, 22, …. 94, 100.

Для построения выборочного образа функции распределения вероятности – диаграммы накопленных частот, данные гистограммы относительных частот суммируются по всем предыдущим карманам в каждый следующий интервал-карман.

Для вычисления частотных распределений и построения графических изображений гистограмм и полигонов частот(тип представления выборочного распределения, в котором точки, соответствующие высотам столбиков гистограммы, соединены ломаной линией) в пакете анализаMSExcelприменяется утилита

Гистограмма. Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного интервала. Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количества студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей.

Гистограммы и полигоны частот позволяют визуально оценить принадлежность выборки тому или иному типу модельного вероятностного распределения.

Описательная статистика. Служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных. ОпределяютсяСреднее, Стандартная ошибка (среднего), Медиана, Мода, Стандартное отклонение, Дисперсия выборки, Эксцесс, Асимметричность, Интервал, Минимум, Максимум, Сумма, Счет, Наибольшее значение, Наименьшее значение и Уровень надежности выборки.

Здесь и далее для обозначения случайных величин используются заглавные буквы латинского алфавита, горизонтальная черта над символом означает среднее значение величины. Символы иобозначают соответственно математическое ожидание (среднее генеральной совокупности) и стандартное отклонение. Объем выборки (количество данных в выборке) представлен функциейСчети обозначается .

В результате статистического анализа выборки с помощью описательной статистики мы получаем точечные или интервальные оценки параметров генеральной совокупности.

Точечные оценкипредставляются одним числом. Следующие оценки параметров являются точечными.

Суммавычисляется суммированием всех выборочных данных с учетом знаков и обозначается .

Наименьшее иНаибольшее значениеобозначаются, соответственно, как и .

Интервал(размах) выборки определяется как разность между наибольшим и наименьшим значениями -.

Среднее(арифметическое) данных выборки вычисляется по формуле:

Стандартная ошибкасреднего (редко используется по причине сложности использования в дальнейших вычислениях) определяется формулой:

Стандартное отклонениеданных выборки (от среднего) вычисляется по формуле

Дисперсияданных выборки определяется как .

МинимумиМаксимумопределяют соответственно минимальную и максимальную частоты, зафиксированные описательной статистикой в заданных интервалах анализа.

Мода – статистика, определяемая как наиболее часто встречающееся значение. Различают типы формы распределения: «одногорбое» –унимодальное, «двугорбое» – бимодальное и т.д.

Асимметрия– статистика, характеризующая несимметричность формы распределения слева и справа от линии среднего. Эталоном симметрии служит нормальное распределение.

Эксцесс – статистика, определяющая степень отличия остроты пика формы одномодального (имеющего только один максимум) распределения от нормального распределения.

Следует подчеркнуть, что точечная оценка является случайной величиной, поскольку ее значение отличается в различных выборках при наблюдении случайного явления. Точечная оценка называется несмещенной, если при повторных случайных выборках из генеральной совокупности среднее по всем выборкам значение оценки стремится к оцениваемому параметру генеральной совокупности с увеличением числа выборок.

Интервальные оценкипредставляются парой чисел (границами некоторого интервала); интервальные оценки даются вместе с вероятностью илиуровнем надежности (доверия)(попадания оцениваемой величины в указанныйдоверительный интервал).

Уровень надежности– вероятность того, что истинное значение оцениваемой статистики находится в построенном (чаще всего на основе точечной оценки) доверительном интервале. Уровень надежности часто задается в процентах.

Часто возникает необходимость группирования и/или ранжирования данных. Уже в результате построения гистограммы данные оказываются сгруппированными – принадлежащими определенным интервалам (классам). Из гистограммы и полигона частот для каждого класса становятся известными соответственно частотаикумулятивная (накопленная) частота. Суммируем частоты в интервалах до и в интервалах после указанного класса и определим соответствующие процентные доли в отношении суммы всех частот – получим проценты данных, лежащих ниже и выше указанного класса; отношение частоты класса к сумме всех частот дает, очевидно, процент данных, принадлежащих классу; сумма найденных процентных значений равна 100%. Стандартными группами, формируемыми в статистике, являютсяперсентили (процентильные ранги), децили, квартилии т.п.Персентиль(процентиль) – число, указывающее какой процент данных лежит ниже или выше указанного значения. Для вычисления персентиля используется формула

где L%– процент данных, лежащих ниже указанного (критического) интервала;I%– процент данных, принадлежащих указанному интервалу;LRL– нижняя реальная граница указанного интервала;h– размер (шаг) интервала;score– значение, для которого определяется персентиль. Каждый 10-ый персентиль называется децилем, каждый 25-ый квартилем (второй квартиль соответствует медиане). Обратная процедура – вычисление выборочного значения по заданному процентному рангу – считается по формуле

где – частота критического класса (интервала), которому принадлежит значение;SFB– сумма частот классов, лежащих ниже критического;SF– сумма всех частот.

В MSExcelсоответствующие процедуры включены в утилиту пакета анализа

Ранг и персентиль. Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе.

Для получения удобных представлений используют перенормировки данных. Ряд перенормировок исторически связан с использованием статистических таблиц. Так, например, таблицы нормального распределения приводятся стандартно для и. Для того, чтобы привести экспериментальные данные форме, допускающей применение стандартных статистических таблиц, со случайной величиной следует выполнить формальное преобразование:

при неизвестных иони заменяются соответственно и .