Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2 курс 1 часть / теория вероятности / методичка / Элементы математической статистики, уч. пособие..doc
Скачиваний:
238
Добавлен:
11.04.2015
Размер:
1.07 Mб
Скачать

Числовые характеристики статистического распределения выборки

Для выборки можно определить ряд числовых характеристик, которые аналогичны основным числовым характеристикам случайных величин в теории вероятностей (математическое ожидание, дисперсия , среднее квадратическое отклонение, мода, медиана) и являются в некотором смысле (который будет ясен дальше) их приближенным значением.

Пусть дано статистическое распределение выборки объема n для частот и относительных частот:

xi

x1

x2

xk

ni

n1

n2

nk

xi

x1

x2

xk

wi

w1

w2

wk

Выборочным средним называется среднее арифметическое значение всех вариант:

.

Если внести множитель под знак суммы, то получим формулу для выборочного среднего через относительные частоты:

.

Отметим, что в случае интервального ряда выборочное среднее вычисляется по тем же формулам, если в качестве чисел х1, … , хk взять середины интервалов: , … ,.

Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от их выборочного среднего:

.

Снова внося множитель под знак суммы, получим формулу для выборочной дисперсии через относительные частоты:

.

Несложные преобразования приводят к более удобной формуле для вычисления выборочной дисперсии

,

где есть выборочное среднее квадрата изучаемой случайной величины, т.е.

.

Если выборка представлена интервальным статистическим рядом, то формулы для выборочной дисперсии остаются те ми же, где, как обычно, в качестве чисел х1, … , хk берутся середины интервалов: , … ,.

Выборочным средним квадратическим отклонением называется квадратный корень из выборочной дисперсии

.

Размахом вариации R называется разность между максимальным и минимальным значением в выборке. Если варианты в выборке ранжированы (размещены в возрастающем порядке), то

.

Коэффициент вариации определяется по формуле

.

Модой Мо вариационного ряда называется вариант, имеющий наибольшую частоту (или относительную частоту).

Медианой Ме вариационного ряда называется число, являющееся его серединой. Для дискретного ряда с нечетным числом вариант медиана равна его серединному варианту. Если же число вариант четно, то Медина равна среднему (т.е. полусумме) двух серединных вариант.

Пример. Дано статистическое распределение выборки объема n=20 :

xi

2

4

6

ni

3

10

7



Найти все числовые характеристики этого распределения.

Ответ: .

Точечные оценки параметров распределения

Пусть изучается с.в. Х и требуется определить некоторые неизвестные параметры, связанные с законом распределения этой случайной величины. Этими параметрами могут быть некоторые числовые характеристики этой с.в. (математическое ожидание, дисперсия и т.д.) или некоторые параметры ее закона распределения (или плотности вероятности). Это может быть, например, параметр а в распределении Пуассона (там вероятности возможных значений ) или параметрыа и σ нормального распределения или значение границ отрезка [a,b] равномерного распределения. Обозначим неизвестный параметр распределения изучаемой с.в. Х буквой t. Извлечем из соответствующей генеральной совокупности выборку объема n. Для этого проведем n случайных экспериментов, в которых с.в. Х приняла некоторые значения x1, x2, … , xn . Таким образом, мы получим выборку { x1, x2, … , xn } объема n. Одна из важнейших задач математической статистики – найти (хотя бы приближенное) значение неизвестного параметра t, имея в распоряжении только эту выборку { x1, x2, … , xn }. Какие же действия надо проделать с числами x1, x2, … , xn из выборки, чтобы получить другое число (обозначим его tn), которое будем считать оценкой неизвестного параметра t ? Как известно, любое правило, по которому каждому набору чисел x1, x2, … , xn ставится в соответствие некоторое другое число tn , задает некоторую функцию n переменных tn = f (x1, x2, … , xn). Поэтому вопрос теперь можно поставить следующим образом. Найти вид такой функции n переменных tn = f (x1, x2, … , xn), чтобы ее значение на произвольной выборке { x1, x2, … , xn } давало бы приближенное значение искомого параметра t.

Дадим следующее определение. Точечной оценкой неизвестного параметра t распределения с.в. Х называется любая функция от значений в выборке:

tn = f (x1, x2, … , xn).

Эта функция называется статистикой. Вычисленное по этой формуле значение функции tn называется статистической оценкой параметра t . Индекс n в обозначении оценки напоминает, что это не точное значение параметра t, а его оценка, полученная на некоторой выборке объема n. Разумеется, точечные оценки в таком широком понимании (как любая функция выборки) на практике интереса не представляет. Другими словами, не всякая статистика удовлетворительна в качестве точечной оценки параметра. Хотелось бы иметь хорошую статистику, чтобы она в каком-либо смысле давала приближенное значение истинного параметра t . Качество статистики определяется некоторыми ее свойствами (несмещенность, состоятельность, эффективность), о которых речь пойдет дальше.

Заметим, что статистическая оценка tn параметра t является случайной величиной, зависящей от полученной выборки . Если мы еще раз проведем n случайных экспериментов, то с.в. Х в них уже может принять другие значения x1, x2, … , xn , а тогда вычисленная на этих значениях точечная оценка tn = f (x1, x2, … , xn) может быть уже другим числом. Для того, чтобы яснее выразить случайный характер статистической оценки, приведем следующий пример.

Пусть снова изучается фальшивый игральный кубик, который не является однородным по плотности (так что выпадение разных граней имеет разные шансы). Интересующая случайная величина Х − число выпавших на кубике очков при однократном его подбрасывании.

Допустим, нам хочется для этой случайной величины Х получить выборку объема n=10. Для этого можно 10 раз произвести эксперимент по подбрасыванию кубика. Пусть в первом эксперименте на кубике выпало число x1, во втором – число x2, …, в десятом эксперименте выпало число x10 . Таким образом для с.в. Х получена выборка { x1, x2, … , x10 }. А можно эту выборку трактовать и по-другому. Введем 10 случайных величин: Х1 − число очков, выпавших при 1-м подбрасывании кубика, …, Х10 − число очков, выпавших при 10-м подбрасывании кубика. Поскольку подбрасывается один и тот же кубик, то ясно, что все эти 10 случайных величин Х1, …, Х10 независимы и имеют один и тот же закон распределения (т.е. принимают одни и те же значения с теми же вероятностями), совпадающий с законом распределения исходной с.в. Х – числа очков на грани кубика при однократном его подбрасывании. С таким «комбинированным» случайным экспериментом (10-кратное подбрасывание кубика) теперь связана система из 10 одинаковых случайных величин Х1, …, Х10 . Поскольку при первом подбрасывании на кубике выпало число x1, то с.в. Х1 приняла в этом эксперименте значение x1 , затем с.в. Х2 приняла значение x2 , …, с.в. Х10 приняла значение x10 . Таким образом, полученную ранее выборку { x1, x2, … , x10 } можно рассматривать как значения в этом эксперименте системы одинаковых с.в. Х1, …, Х10 , каждая из которых имеет то же самое распределение, что и исходная с.в. Х.

Вернемся теперь к основному изложению. Проводится случайный эксперимент по n-кратному испытанию некоторой с.в. Х для получения соответствующей выборки объема n. С этой с.в. Х свяжем n случайных величин: Х1 – значение Х в первом испытании, …, Хn – значение Х в n-м испытании . Из примера понятно, что любую полученную при этом выборку { x1, x2, … , xn } с.в. Х можно рассматривать как значения, которые приняла в этом эксперименте система независимых одинаковых с.в. Х1, …, Хn , каждая из которых имеет то же самое распределение, что и исходная с.в. Х. Тогда значение статистической оценки tn = f (x1, x2, … , xn) на этой выборке есть не что иное, как значение соответствующей функции случайных величин Tn = f (Х12, … ,Хn). Действительно, если бы мы изначально определили случайную величину Tn как функцию случайных величин Х12, … ,Хn формулой Tn = f (Х12, … ,Хn), то после проведения эксперимента (n-кратного испытания с.в. Х) она бы по определению должна была бы принять значение tn = f (x1, x2, … , xn) – то, что мы и назвали статистической оценкой параметра t на полученной выборке.

Вывод. Статистическая оценка параметра t случайной величины Х, выраженная формулой tn = f (x1, x2, … , xn), есть значение случайной величины Tn = f (Х12, … ,Хn), где с.в. Х1, …, Хn − значения с.в. Х в соответствующих по счету экспериментах − независимы и имеют то же самое распределение, что и исходная с.в. Х. Поэтому статистическую оценку (статистику)

tn = f (x1, x2, … , xn) (*)

tn можно рассматривать как реализацию функции описанных случайных величин: Tn = f (Х12, … ,Хn). (**)

Как уже говорилось, не любая функция такого вида (т.е. не любая статистика) дает удовлетворительное приближенное значение истинного параметра t . Качество статистики определяется некоторыми ее свойствами (несмещенность, состоятельность, эффективность), о которых сейчас и пойдет речь.