Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Коршунов / М03ЧислХарСВ.doc
Скачиваний:
18
Добавлен:
26.04.2015
Размер:
133.63 Кб
Скачать

Согласно интегралу Стилтьеса получаем

первый начальный момент

второй центральный момент

третий центральный момент

четвертый центральный момент

Для наглядности вместо m3 и m4 используют их функции, нормируя стандартом и центрируя моментами нормального распределения: и .

Удобство приведенных характеристик в том, что (1) их определяют по единому правилу, (2) соответствуют параметрам ряда законов распределения. Неудобства - (1) для некоторых законов распределения их аналоги не существуют теоретически (не берутся интегралы) или практически (особенности распределения), (2) нередко вычисленные значения характеристик дают искаженную картину явления. Например, если данные не будут следовать нормальному закону, то математическое ожидание будет смещено относительно его значения при нормальном распределении. В этом случае будет искажено и среднее квадратическое отклонение.

Чтобы обойти эти факты, разрабатывают и применяют характеристики тех же свойств СВ, но основанные на других принципах, например, на ранжировании. Примером таких характеристик служат широко распространенные: мода, медиана, сгиб, различные квантили , среднее абсолютное отклонение САО, срединное отклонение СО и др.

Чтобы можно было судить по найденным оценкам характеристик о реальном поведении объекта, все они должны отвечать некоторым требованиям. Рассмотрим обязательные требования.

Требования к оценкам

Оценки должны быть состоятельными, эффективными, несмещенными и достаточными. Тогда их значения, вычисленные по выборке, можно рассматривать, как правдоподобные, не противоречащие истинным значениям оцениваемых параметров.

  1. Состоятельность, - оценка по вероятности должна сходиться к истинному значению.

Пример сходимости по вероятности

истин. значен.

о

ц е

н

к а

Характеристика

45

45.0

45.00

45.000

45.0000

вероятность

1

0.9

0.99

0.999

0.9999

объем выборки

10

100

1000

10000

Оценка, которая есть рациональная функция от выборочных моментов будет состоятельной оценкой этой функции. Например, асимметрия определена вторым и третьим центральным моментом. Поэтому ее оценка A , вычисленная по данным выборки, будет состоятельной.

2. Эффективность - из двух и более видов оценок одной и той же характеристики более эффективна та, точность определения которой выше (дисперсия меньше). Например, рассеяние вокруг МО характеризуют СКО, САО, Срединным Отклонением, Вероятным Отклонением, одни из них получаются точнее других.

Эффективная оценка параметра одного распределения не совпадает с эффективной оценкой этого же параметра у другого распределения. Оценка дисперсии, вообще говоря, не является эффективной, но для нормального распределения она эффективна асимптотически, т.е. .

Асимптотически эффективная оценка является состоятельной. Оценка xср есть эффективная оценка M{X} для выборки из нормальной генеральной совокупности. Несколько эффективных оценок параметров (числовых характеристик) образуют совместно эффективную оценку. Рассмотренные здесь S2 и xср есть совместно эффективная оценка для нормально распределенной СВ с эффективностью e =(n-1)/n. Приведем результаты сравнения эффективности относительных СКО и САО.

Асимптотическая относительная эффективность (АОЭ) оценок определяется пределом отношения их вариаций при n : [Newber] .

ОтнЭффОценок= lim (SS/S)/ (SСАО /САО)

Груб на число

нет

1на 1000

1 на 500

1на 200

1на 100

2на100

5 на100

1 на10

15 на100

1 на 4

1 на 2

100на 100

АсмпОЭф

0.876

0.948

1.016

1.197

1.439

1.752

2.035

1.903

1.689

1.371

1.017

0.876

Выводы. Если выборка однородна, нет в ней грубых наблюдений (т.е. наблюдений из другой выборки), то СКО на 12% эффективнее САО. Если на 1000 наблюдений только 2 грубых, то эффективность одинакова.

Если на 1000 будет 5, то САО эффективнее СКО. Если на 1000 будет 50 то САО эффективнее в 2 раза.

3. Несмещенность. Оценка д.б. несмещенной. Если это х среднее, то, она не должна содержать систематической погрешности, если это СКО - то, чтобы точность не была ни завышена, ни занижена. несмещенная: одно наблюдение из n ушло на х средн., остальные на рассеяние. Она оценивает всю совокупность (т.е. и то, что не наблюдали). Однако оценка смещенная. Несмещенная оценка стандарта генеральной совокупности . По сути это экстраполяция: по малой части судимо целом.

Другая оценка: s2 = [(x-xср)2 p], где p=1/n - смещенная: оцениваем только данное количество.

Примечание. Оценки, в которых участвует р, вычисленные по выборке, всегда смещенные. Для нахождения несмещенных оценок применяют уточняющие формулы. Например, . А если оценки находились по частотам попадания значений в интервалы h числовой оси, то их исправляют, при необходимости, поправками Шеппарда: Такая необходимость возникает, если поправка составляет более 7% - 10% от значения оценки, т.е. она больше погрешности определения этой оценки. Оценка рассеяния (СКО) обычно вычисляется грубее. Верной бывает одна цифра (стоящие перед ней 1, 0 или 9 в расчет не принимают).

4. Достаточность оценки. Оценка считается достаточной, если она вбирает всю информацию, которую представляет выборка. Пусть СВ следует нормальному закону, тогда оценки xср и S2 будут достаточными, так как этот закон характеризуют только два параметра: математическое ожидание и дисперсия.

Рис для СКО, САО СО: СКО - корридор 2S - 68% , 2САО - 51%, 2СО - 50%, а характеризуют одно и то же

для А>0, хвост распределения направо, А<0 -налево

для Е>0 скучены наблюдения выборка узкая и два хвоста, E<0 рассыпаны широко - к равномерному

3.3.1.3. Другие характеристики СВ. (подробно об их оценках в лекции 6)

Так как некоторые характеристики, определяемые по методу моментов, не существуют или сомнительны, или вызывают затруднения при их определении, то применяют множество характеристик, не связанных с моментами. Эти характеристики мы перечислили выше, дадим их определение и рассмотрим более полно.

Другие характеристики положения и рассеяния

Оценки положения

Оценки среднего из выборки.

Мода это наиболее часто встречающееся в выборке значение. Ее используют обычно при распределениях с большой асимметрией, для которых среднее арифметическое не обладает максимумом плотности вероятности. Оценка моды находится как максимум частоты значений наблюдения в выборке x1 ,...,xn , т.е. Mo=Xпри p=max.

Модой называют значение х непрерывной СВ Х, при котором функция плотности вероятности имеет максимум. Для дискретных величин модой служит то значение, вероятность которого наибольшая. Эта характеристика позволяет классифицировать распределения по количеству и положению пиков. Различают одномодальные (рис.3.4д), многомодальные (рис.3.4е) и антимодальные (рис.3.4ж) распределения.

Моду Мд используют для характеристики центра распределения СВ вследствие простоты ее нахождения и когда xср не существует или не определяется. При асимметричном распределении мода смещена вправо от 1, при отрицательной и влево от 1, при положительной асимметрии, т.е. в противоположную от шлейфа (хвоста распределения) сторону (рис. 3.4е).

Сгиб применяют при антимодальных распределениях, когда xср не существует.

Если справа и слева в ряду значений СВ отбросить по 25% значений, то геометрическая середина оставшегося интервала дает эту характеристику Сгиб . Используют при антимодальных распределениях, для которых математического ожидания (среднего значения) не существует.

К в а н т и л и. При обработке данных всегда оценивается некое условие, например, непротиворечие их нормальному закону распределения. Оценкой служит вероятность того, что значения СВ не выйдут из заданного интервала (процент значений, попадающих в этот интервал), или же - длина интервала, из которого при заданной вероятности СВ не выйдет значение СВ, (длина интервала, который захватывает интересующий нас процент значений).

Для этих целей диапазон значений функции распределения 0 < F (х) < 1 дробят на k равных частей, вероятность одной части равна 1/k. Каждое значение СВ x1/k, x2/k,... , соответствующее вероятностям 1/k, 2/k,... называют квантилью. В зависимости от того, на сколько равных частей делят полную вероятность, применяют следующие квантили, которым даны собственные названия.

Медиана. Значение, которое делит полную вероятность на две равных части, т.е. имеется только одно граничное значение Х 1/2, которое делит площадь под кривой плотности вероятности на две равные части (рис. 3.4к). Медиану Ме используют наряду с математическим ожиданием и модой как характеристику среднего значения. При хороших распределениях (без резких выбросов) медиана лежит между модой и средним, которое смещается к хвосту распределения

Медианой выборки называют значение, стоящее в центре ранжированного ряда наблюдений. Медиана не зависит от числовых значений крайних элементов ранжированного ряда. Она менее реагирует на отдельные большие отклонения, это - робустная оценка, т.е. устойчивая к ошибкам. Поэтому ее применяют при большом разбросе или малой точности крайних значений, при асимметричных распределениях, когда среднее арифметическое становится ненадежным.

Квартиль. Как видно из названия, вероятность делится на четыре части. Им соответствуют три значения, которые делят площадь (но не отрезки по оси X) под кривой плотности вероятности (рис. 3.4к): Х1/4, Х2/4, X3/4, на четыре равные части. Конечно, вторая квартиль Х2/4 есть медиана. А среднее из первой и третьей квартили

(Х1/4 + X3/4 )/2 называют средняя квартиль. Это еще одна характеристика положения, которая в общем случае смещена относительно медианы. (Х1/4 - X3/4 )/2 характеристика 50%-го рассеяния относительно средней квартили.

Децил ь. В данном случае k=10, вероятность изменяется через 0.1.

Процентиль, центиль. Здесь шаг изменения вероятности 0.01 или 1%. Широко применяют интервалы 5, 0.1, 1,5%. Вместо слов процентиль, дециль часто употребляют термин "q - процентный предел".

Оценки положения, рассеяния и др. - это функции СВ. Поэтому они тоже суть СВ, и подчиняются своим законам распределения. Для их характеристики в свою очередь находят их оценки (оценки оценок), Эти последние обычно служат для нахождения границ, в пределах которых лежит истинное значение с заданной доверительной вероятностью. Этот интервал называют доверительным. Границы доверительного интервала находят с помощью некоторых искусственных СВ - функций реальной СВ и ее числовых характеристик. Для этих СВ теоретически находят функции - их законы распределения с однозначным соответствием. Таким образом, получая по наблюдениям статистические оценки, в дальнейшем качество этих оценок все-таки оцениваем теоретически. Ввиду того, что распределения для такой оценки, равно как и доверительные интервалы, предписаны ГОСТ, рассмотрим наиболее употребительные из них.

Соседние файлы в папке Коршунов