Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Малинин_2.doc
Скачиваний:
20
Добавлен:
06.11.2018
Размер:
209.92 Кб
Скачать

2.7. Понятие о малой выборке и квантильном анализе

Отметим, что рассмотренные выше числовые характеристики случайной величины имеют высокую надежность только при сравнительно большой длине выборки. С уменьшением длины выборки и, особенно под влиянием выбросов оценка первичных статистических характеристик довольно быстро теряет эффективность. Более эффективной оценкой является медиана, которая очень мало зависит от длины выборки. Еще менее устойчивой оказывается величина дисперсии, которая очень сильно зависит от длины ряда и возможных выбросов случайной величины. И уже совсем неустойчивыми оказываются оценки коэффициентов асимметрии и эксцесса. Таким образом, для коротких статистических рядов (малой выборке) желательны специальные методы оценивания, к которым относятся методы непараметрической статистики. Достоинством их является то, что они не привязаны к теоретическим законам распределения и наибольшую эффективность имеют как раз применительно к малым выборкам.

К сожалению, в статистике нет строгого определения малой выборки. Интуитивно понятно, что выборка длиной 10 значений является малой, а объемом 100 значений – большой. Возникает вопрос, где провести верхнюю границу малой выборки?

Учитывая, что закон распределения представляет собой важнейшую характеристику случайной величины, в качестве малой выборки можно считать такую, когда при обработке ее методами, основанными на группировке наблюдений, нельзя достичь заданной точности и достоверности. Однако данное определение вряд ли можно признать универсальным. В статистике есть множество задач, несвязанных с оценкой функции распределения исходных данных. Например, как будет показано в разделе 5, при расчете коэффициентов корреляции вполне достаточно длины рядов n = 3035.

Поэтому, возможно, более универсальным является следующее определение без привязки к закону распределения: выборка является малой, если рассчитанные на ее основе стандартными методами статистические параметры не отвечают заданной точности и достоверности. Однако и в данном случае присутствует некоторая доля субъективизма, ибо понятие заданной точности и достоверности являются неоднозначными и могут быть различными в зависимости от поставленной задачи даже для одной и той же выборки. Так, для выборки длиной n = 40 практически невозможно построить надежную эмпирическую функцию распределения, но в то же время рассчитанные по ней коэффициенты корреляции оказываются достаточно точными. На практике довольно часто в качестве условной верхней границы малой выборки принимают n < 2530 значений. Итак, для малой выборки не используются методы группирования данных, не вычисляются статистические моменты выше второго порядка и применяются специальные методы анализа данных.

Одним из таких специальных методов является квантильный анализ, который относится к методам теории порядковых статистик. Для вариационного ряда, расположенного в порядке возрастания его значений, i-й по порядку член называется i-й порядковой статистикой ряда объемом n. Любая порядковая статистика представляет собой функцию всех элементов выборки. При изменении ее объема порядковые статистики могут существенно измениться. Первой работой по математической теории порядковых статистик считается статья К. Пирсона, опубликованная в1902 г. Наиболее интенсивное развитие она получила во второй половине 20-го столетия. Что касается квантильного нализа, то наибольшую известность он получил благодаря работам американского статистика Тьюки.

Квантилю, отвечающему заданному уровню вероятности р, соответствует такое значение , при котором функция распределения принимает значение, равное р, т.е.

. (2.22)

Отсюда следует, что выборочный квантиль хр порядка р представляет собой элемент вариационного ряда х(1), х(2),…,х(n) , полученного в результате преобразования выборки x1,x2,…,xn. В статистической практике используют ряд квантилей, имеющих специальные названия:

персентили: Р1, Р2,…,P99 – квантили порядков 0,01; 0,02; …; 0,99;

децили: D1, D2,…,D9 – квантили порядков 0,10; 0,20; …; 0,90;

квартили: Q1, Q2, Q3 – квантили порядков 0,25, 0,50, 0,75.

Нетрудно видеть, что вариационный ряд делится тремя квартиля на четыре равные части: Q1 или х0,25 – это значение ниже которого лежит 25 % наблюдений, Q2 или х0,5 – 50 % наблюдений , Q3 – 75 % наблюдений. Указанные квартили имеют особые названия.Так, медианой называется квартиль, отвечающий доверительной вероятности р = 0,5, т.е. х0,5. Вероятностям р = 0,25 и р = 0,75 соответствуют нижний х0.25 и верхний х0.75 квартили. Разность называется интерквартильным расстоянием. Наиболее часто в вероятностных расчетах используются следующие порядковые статистики:,, , , х0.5 и др.

Наглядной формой представления результатов квантильного анализа является предложенный Тьюки так называемый «ящик с усами» (рис. 2.4). Для его построения чертится прямоугольник, верхняя и нижняя стороны которого соответствуют и , а медиане соответствует поперечная черта. К ящику пристраиваются усы, т.е. отрезки, соединяющие каждый сгиб с соответствующим крайним (xmin или xmax) значением выборки.

Несмотря на видимую простоту построения ящика с усами, в нем содержится большое количество информации о выборке. Действительно, медиана характеризует центр распределения. В некоторых случаях для придания центру распределения еще большей устойчивости используется так называемое трехсреднее значение, определяемое как

Х3 = (х0.25 + 2Me + x0.75)/ 4. (2.23)

Основной характеристикой рассеяния служит интерквартильное расстояние, представляющее аналог среднеквадратического отклонения. Кроме того, другой характеристикой рассеяния служит размах колебаний R=xmaxxmin. Дополнительно более подробно изменчивость выборки может быть проанализирована при построении так называемых «барьеров», представляющих прямые линии, перпендикулярные к «усам». Внутренние барьеры отстоят от верхней и нижней границ ящика на расстоянии 1.5Q, внешние барьеры – на расстоянии 3Q. Для случайной выборки, имеющей нормальное распределение, между внутренними барьерами содержится 99 % значений выборки, а между внешними – 99.9997 %. Отметим, также, что при нормальном распределении данных между интерквартильным расстоянием и среднеквадратическим отклонением существует следующее соотношение

. (2.24)

Кроме того, на основе квартилей может быть вычислен показатель асимметрии, формула для которого имеет вид

As = (x0.75 + x0.25 – 2x0.5) / (x0.75 x0.25). (2.25)

Пример 2.3. В течение 1979-1990 гг. (n=12) в юго-восточной части Тихого океана, ограниченной по широте 30 и 45о ю.ш., а по долготе 80 и 105о з.д. судами бывшего Советского Союза осуществлялся круглогодичный промысел ставриды. В отдельные годы ее вылов превышал 1 млн. т. Рассмотрим распределение «ящиков с усами» вылова рыбы для всех месяцев года (рис. 2.5), которые рассчитывались исключительно по фактическим данным, т.е. с учетом пропусков. В некоторые месяцы (сентябрь-ноябрь) число пропусков достигало 5 значений. В этих случаях длина ряда сокращалась до n=7. Учитывая слишком короткую длину исходных рядов, барьеры не строились.

Из рис. 2.5 видно, что среднемесячные данные вылова ставриды имеют весьма сложную внутреннюю структуру, существенно неодинаковую для различных месяцев года. Прежде всего, следует отметить, что в статистических оценках вылова рыбы практически отсутствует годовой ход. Так, медиана достаточно случайно меняется в течение года. Ее максимальное значение отмечается в январе, а минимальное – в августе. Интерквартильное расстояние также испытывает хаотические изменения. Максимальное значение Q наблюдается в августе, а минимальное – в марте. Кроме того, заметно меняется при переходе от одного месяца к другому соотношение между медианой, интерквартильным расстоянием и размахом колебаний. Например, в октябре отмечается максимальный размах в оценках вылова рыбы, в то время как интерквартильное расстояние существенно меньше, чем в августе.

44

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]