Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
анализ данных.docx
Скачиваний:
6
Добавлен:
14.04.2019
Размер:
84.69 Кб
Скачать

4. Некоторые выборочные распределения, необходимые при статистических исследованиях.

Многие случайные процессы близки по характеру к наиболее общему закону, который называется нормальным распределением. Большинство реальных выборок следует этому распределению лишь в предельных случаях, например, при очень большом объеме выборки. Однако, статистические исследования с помощью больших выборок на практике встречаются сравнительно редко. Поэтому важно знать закономерности распределения случайных величин в условиях, когда объем выборки мал. Существует несколько хорошо изученных теоретических распределений для выборок ограниченного объема, с помощью которых можно решать различные статистические задачи. Каждая из выборочных статистик в отличие от нормального распределения зависит от числа степеней свободы.

Число степеней свободы (f) – число независимых способов, которыми можно описать исследуемую выборку. Например, если значение математического ожидания заранее известно, то число степеней свободы для n-параллельных замерок будет равно n, т.е. общему объему выборки. Если же значение математического ожидания оценивается на опыте как среднее арифметическое этих же n-измерений, то число степеней свободы будет равно (n-1). Т.к. из общего числа случайных величин вычитается дополнительная связь между всеми элементами выборки, возникшая при определении среднего арифметического значения.

2. Числовые характеристики случайных распределений. При достаточно большом числе измерений физической величины ее результаты представляют собой не прерывный ряд значений которые группируются около некоторого наиболее вероятностного значения которое называется – центром распределения. Такой числовой ряд при числе измерений стремящихся к бесконечности называется генеральной совокупностью. А закономерность вероятностного распределения результатов в этом ряду называется случайным распределением или статистикой. В реальных условиях при измерении некоторой физической величины количество результатов содержит конечное иногда даже малое число измерений. Эта совокупность измерений называется выборочным или просто выборкой. Число измерений в выборке называется ее объемом. Чем больше число измерений выборке, тем ближе она соответствует той генеральной совокупности, частью которой она является. Случайное распределение можно изобразить в виде кривой зависимости значение исследуемой величины от частоты этого значения. Если число измерений стремится к бесконечности, то эта частота заменяется вероятностью. Полученная кривая называется кривой плотности вероятности распределения или просто вероятностной кривой. Величина х которая соответствует максимуму этой кривой называется – модой.

Если кривая симметрична, то мода называется математическим ожиданием. Мода является одной из характеристик центра. Для выборки объема n математическое ожидание вычисляется по следующей формуле

(1)

Где рi вероятность появления величины хi Если вероятность появления любого результата выборке одинаково то в этом случае соотношение (1) примет следующий вид.

(2)

Из соотношении (2) видно, что в этом случае математическое ожидание совпадает со средним арифметическим этих значений.

Медианой называется такое значение случайной величины х при котором половина результатов имеет значение меньшее, а другая большее чем сама медиана.( на первом рисунке).

Для вычисления медианы результаты измерений располагают в порядке возрастания. В результате получится упорядоченное множество, которое называется вариационным рядом. Если число измерений не четное, то значение медианы равно значению среднего члена ряда. Если число измерений четное то значение медианы равно полу сумме значений двух средних результатов. При малых объемов выборки вместо среднего арифметического для оценки центра совокупности предпочтительнее пользоваться медианой. При обработке экспериментальных данных широко используются такие величины: дисперсия, коэффициент вариации, относительно стандартное отклонение, размах и другие. Для характеристики степени рассеяния результатов измерении пользуются дисперсией. Дисперсия – называется математическое ожидание квадрата отклонения значений случайной величины от ее истинного значения. Дисперсию для выборки из n случайных величин можно вычислить по следующей формуле:

2 (3)

Где рi это вероятность появления величины хi при n, стремящихся к бесконечности.

Стандартным или средним квадратичным отклонением называется положительное значение квадратного корня из дисперсии.

Коэффициентом вариации или относительной средней квадратичной погрешностью называется отношение стандартного отклонения к среднему значению случайной величины, выраженное в процентах.

Относительная выборочным стандартным отклонением называется отношение выборочной стандартной погрешности к среднему значению случайной величины.

Данная величина часто используется в качестве метрологической оценки воспроизводимости методом анализа химического состава. Размахом наз-ся разность между крайними членами вариационного ряда. Размах, как и медиана, используют для характеристики выборок малого объема.

3. Нормальное распределение.

Распределения совокупностей случайных величин подчиняются определенным закономерностям, которые являются следствием вероятностной природы случайного рассеяния. Наиболее общее закономерности для многих вероятностных распределений определяются нормальным распределением, которое описывается кривой Гаусса. Функция вероятности, описывающаяся кривой Гаусса, имеет следующий вид: (1).

Из (1) видно, что вероятностная кривая соответствующая нормальному распределению имеет вид колокола и описывается двумя параметрами: математическим ожиданием исследуемой величины и стандартным квадратичным отклонением. Вероятности событий связанных с появлением того или иного значения х определяются соответствующе площадью под кривой Гаусса. При проведений вычислений удобнее вместо переменной х перейти к новой переменной u, которая представляет собой отклонение величины х от её математического ожидания и связана со старой переменной следующим образом: (2)

Сделав замену (2) в соотношении (1), мы получим:

(3)

Распределение (3) наз-ся нормальным нормированным распределением. Это распределение имеет следующий вид:

Отсюда мы видим, что любому нормальному распределению можно сопоставить нормальное нормированное распределение с математическим ожиданием равной 0 и дисперсией равной 1. Нормировка (2) позволяет создавать таблицы для вероятности попадания случайной величины в исследуемый интервал её значений. Найдем площадь под кривой распределения (3).

.

Т.о. площадь под кривой распределения равна 1. Это соответствует тому, что полная вероятность некоторого события равна 1. Исходя из вероятностного распределения (3) можно найти вероятность того, что величина u попадет в интервал между (– для этого достаточно найти площадь под кривой нормального распределения в интервале ( – ; ).

(5)

Выражение (5) принято писать следующим образом:

. (6)

Найдем вероятность того, что величина u попадет в интервал ( . Для этого достаточно найти площадь под кривой нормального распределения в интервале ( .

. (7)

. (8)

Найдем вероятность того, что величина u в ( . Для этого достаточно найти площадь под кривой распределения в интервале ( . .

Выразим соотношение (9) через функцию Ф.

(9)

(10)

При обработке экспериментальных данных часто возникает вопрос: чему равна вероятность, что величина Х попадает в интервал между своим математическим и некоторым значением Х1? Поставленный выше вопрос эквивалентен следующей задаче: Какова вероятность, что величина U попадет в интервал между 0 и U1? Для этого достаточно найти площадь под кривой нормального распределения в интервале (0; U1).

Из рисунка видно, что данную вероятность можно записать в следующем виде: (11)

Функция называется нормированной функцией Лапласа. Найдем вероятность, того что величина Х попадает в интервал между –Х1 и Х1. Поставленный выше вопрос эквивалентен следующей задаче: какова вероятность, что величина U попадет в интервал (-U1; U1)? Для этого достаточно найти площадь под кривой нормального распределения в интервал (-U1; U1).

(12)

(13)

Найдем вероятность, что случайная величина выходит за указанные в предыдущем случае симметричные границы. Поставленный выше вопрос эквивалентен следующей задаче: какова вероятность что величина U в интервал (-U1; U1). Для этого достаточно найти площадь под кривой распределения в интервале (-∞;- U1) и (U1;+∞).

(14)

Найти вероятность что результаты измерений отклоняются от своего истинного значения не более, чем ±σ, ±2σ, ±3σ. Прежде всего перейдем от переменной Х к переменной U, и найдем границы переменной U. Новые границы переменной U: ±1, ±2, ±3. Затем по таблицам функции Лапласа находим значения этой функции в точках 1,2,3. , , .

Т.о. лишь в 68 случаях результаты не выходят за пределы стандартной погрешности, и лишь в 0,28 они выходят за пределы 3 . Частота таких событий очень мала, что результат с отклонением более 3σ принято считать грубым промахом. И поэтому его следует отбросить. Данное правило выявления промахов называется критерием 3σ. Выводы относительно степени достоверности экспериментальных результатов корректны, только если они согласованы с вероятностью получения этих результатов. Результат тем достовернее, чем больше вероятность его получения. Для практических целей, т.е. для решения вопроса о необходимой степени достоверности, нужно лишь условиться о минимальном значении этой вероятности. Практически для большинства естественнонаучных экспериментов вероятность заслуживает доверия, если в 95 случаях из 100 наблюдаются допустимые случайные отклонения результатов от среднего. Поэтому вероятности, значения которых лежат вблизи 0,95, называются доверительными.