Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
189.pdf
Скачиваний:
27
Добавлен:
02.04.2015
Размер:
4.84 Mб
Скачать

2.5. ОПРЕДЕЛЕНИЕ ЗАКОНА РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Определив оценки основных начальных и центральных моментов и показателей формы, можно предварительно определить характер кривой плотности распределения вероятности.

Так, например, если оценка асимметрии не близка к нулю (не

выполняется неравенство

 

1,5

 

 

s

σ s ), то кривую плотности

 

 

 

 

 

распределения вероятности нельзя считать симметричной, при этом если

µ3 / SQ3 > 0, то более крутая часть кривой находится слева, если

µ3 / SQ3 < 0, то более крутая часть кривой находится справа. Степень

несимметричности кривой распределения плотности вероятности можно оценивать и по тому, каким образом массив экспериментальных данных

накрывается интервалом (QQ+ ) , рассчитанным по форм.(17); если

значительная часть левой или правой половины этого интервала накрывает участок значений, экспериментальные данные в котором отсутствуют, то это показывает о наличии существенной несимметричности кривой распределения вероятности. И еще одним показателем несимметричности кривой может быть отличие среднего арифметического от медианы. Чем больше они отличаются друг от друга, тем большая несимметричность кривой распределения вероятности. Медиана может быть определена по формулам (39) – (40).

По величине оценки эксцесса можно оценить степень заостренности

 

 

 

 

 

=

µ

3, то можно

кривой распределения плотности вероятности. Если ε

44

 

 

SQ

 

считать, что закон распределения плотности вероятности вероятнее всего

 

 

 

 

 

 

 

µ

 

 

 

 

близок к нормальному. При ε =

44

>3 кривая имеет более узкую, острую

 

SQ

 

 

 

 

 

 

 

 

 

 

 

 

 

µ

4

 

и высокую вершину, чем у нормального закона, при ε =

 

< 3 – более

SQ4

широкую, плоскую и низкую.

Наличие моды (или нескольких мод) может быть оценено по анализу частостей тех или иных значений экспериментальных данных. Если

экспериментальные данные имеют тенденцию группироваться в какойлибо области значений (или областях значений), то можно говорить о возможности наличия моды (или нескольких мод). Как правило, целесообразно с гистограммой строить линейчатую диаграмму, по которой можно определить наличие моды или нескольких мод. Линейчатая диаграмма определяет зависимость количества одинаковых отсчетов от их значений. Однако следует учитывать, что без построения гистограммы оценить значение той или иной моды невозможно.

После анализа возможного характера кривой плотности распределения вероятности и сравнения полученных оценок показателей формы ЗРВ с значениями показателей, приведенными в табл. 2 и 3, делается предварительный вывод о возможных формах ЗРВ (один или несколько возможных вариантов).

2.5.1. Построение гистограммы

Для построения гистограммы необходимо выбрать оптимальное число интервалов группирования экспериментальных данных. Необходимость оптимизации числа интервалов связана, в первую очередь, с требованием построения гистограммы, наиболее близкой к действительной кривой плотности распределения вероятности, и исключения промахов при определении закона распределения вероятности экспериментальных данных.

Если число интервалов, на которые разбивается вся совокупность экспериментальных данных будет велико, а интервалы соответственно будут малыми, то гистограмма будет отличаться от плавной кривой своей изрезанностью, многими всплесками и впадинами, а некоторые интервалы могут быть пустыми. Если число интервалов будет мало, то могут быть потеряны характерные особенности действительного закона распределения вероятности. Так, например, если сделать один интервал, равный размаху экспериментальных данных, то любое распределение вероятности будет сведено к равномерному закону.

Для выполнения задания предлагается два варианта выбора числа интервалов группирования экспериментальных данных:

1) значение числа интервалов находится между минимальным и максимальным числами, которые могут быть определены по формулам [2]

mmin = 0,55 n0,4

mmax = 1,25 n0,4

(18)

где n – число отсчетов,

2) число интервалов может быть выбрано из табл. 4 [5]

 

 

 

 

Таблица 4

 

 

Рекомендуемое число

Число отсчетов

интервалов

 

 

 

 

 

40

- 100

7

-

9

101 - 500

8 - 12

501

- 1000

10

-

16

1001

- 10000

12

-

22

При выборе конкретного числа интервалов группирования рекомендуется учитывать следующее:

1)если предполагается, что закон распределения плотности вероятности симметричный, с явно выраженной модой, то желательно, чтобы количество интервалов m было нечетным, (так как при четном m и островершинном или двухмодальном симметричном распределении в центре гистограммы оказываются два равных по высоте столбца и середина кривой распределения плотности вероятности принудительно делается более плоской), если же несимметричный закон распределения плотности вероятности, то требования к нечетности количества интервалов не предъявляются;

2)как правило, используются интервалы равной длины;

3)центральный интервал (при нечетном количестве интервалов) желательно располагать в середине размаха экспериментальных данных симметрично относительно середины;

4)если гистограмма оказывается явно двухмодальной, число интервалов может быть увеличено в 1,5 – 2 раза таким образом, чтобы на каждую моду приходилось бы примерно m интервалов;

5)в каждом интервале должно быть не менее 5 отсчетов (выполнение этого требования обязательно при проверке соответствия ЗРВ экспериментальным данным по критерию согласия К. Пирсона);

6)для получения гистограммы, наиболее близкой к реальному закону распределения вероятности, целесообразно построить несколько гистограмм, которые отличались бы друг от друга количеством интервалов (при этом варьирование количества интервалов должно быть в пределах

рекомендуемых, например, гистограммы, состоящие из 7, 9,

11

интервалов); из построенных таким образом гистограмм выбирается для дальнейшего анализа гистограмма, которая отвечает максимальному числу признаков, установленных в результате предварительного анализа;

7) для исключения грубых промахов при построении гистограммы целесообразно построить кумулятивную кривую по экспериментальным данным (необходимо учесть, что пропорциональная

зависимость кумулятивной кривой показывает на близость к равномерному закону распределения вероятности; наличие перегибов кумулятивной кривой может свидетельствовать о наличии мод или впадин);

8) если какое-либо значение отсчета попадает на границу интервала группирования, то рекомендуется разделить количество этих отсчетов пополам на два соседних интервала.

Гистограмма строится следующим образом: на оси абсцисс откладываются интервалы группирования данных, на которых строятся прямоугольники, площадь которых равна относительному количеству

отсчетов,

приходящихся

на данный интервал, т.е.

по

оси ординат

откладывается величина,

равная отношению

 

N

где N - количество

 

 

,

 

n ×∆Q

отсчетов,

попавших в

данный интервал,

n - количество

отсчетов в

исходном массиве, Q -

длина интервала. Таким образом,

в

гистограмме

площадь прямоугольника равна вероятности попадания отсчета в интервал, который является основанием прямоугольника.

Кроме гистограммы целесообразно построить полигон, кумулятивную кривую и линейчатую диаграмму. Значения кумулятивной кривой определяются вероятностью попадания отсчета в интервал от - до рассчитываемого значения, т.е. суммированием вероятностей попадания отсчета во все интервалы, начиная с первого, до рассчитываемого (вероятность рассчитываемого интервала также суммируется). Линейчатая диаграмма представляет собой зависимость количества отсчетов от конкретного значения отсчета.

ПРИМЕР. В качестве примера рассмотрим построение гистограммы 240 отсчетов, расположенных в виде статистического ряда, и покажем, насколько велико влияние длины интервала группирования значений Q , а следовательно, и количества интервалов на

вид гистограммы. Проверка наличия грубых промахов по методике, описанной в п.2.3, показала, что все отсчеты попадают в интервал

(QQ+ ) ,следовательно, можно считать, что грубых промахов нет.

Для данного массива числовые характеристики, определенные по формулам (2) – (5) имеют следующие значения:

среднее арифметическое Q = 4,193333;

стандартное отклонение SQ = 0,842812;

оценка коэффициента, характеризующего асимметрию, s = -

0,014773;

 

оценка эксцесса

ε

= 1,6902745,

 

 

 

 

 

 

 

 

 

 

 

 

 

оценка контрэксцесса k = 0,76917.

 

 

 

Проверка симметричности распределения по методике, изложенной в

п. 2.2.3

дает следующие результаты:

 

 

σ s = 0,15648, таким образом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,5

=0,235 >

s

 

 

. На основании чего можно сделать вывод о том, что

σ s

 

 

 

 

 

 

 

 

 

 

 

 

несимметричностью ЗРВ можно пренебречь.

Если определять количество рекомендуемых интервалов по формулам (18), то получим что минимальное число интервалов 5, а максимальное 11. По табл. 4 рекомендуемое число интервалов от 8 до 12. В качестве примера построим гистограммы для 5 интервалов, 9 и 15 интервалов. Разбивка всех значений статистического ряда на интервалы проводилась в соответствии с перечисленными выше рекомендациями.

Статистический ряд и границы интервалов представлены в табл. 5. В графах 3,4, и 5 табл. 5 приведены данные для 5 интервалов группирования экспериментальных данных, в графах 6,7,8 - для 9 интервалов, а в графах 9,10 и 11 – для 15. Интервалы расположены

симметрично

относительно среднего арифметического,

которое при

 

 

 

 

построении

гистограммы для упрощения принято

Q

 

4,2. Длина

интервала в первом случае равна Q = 0,825, во втором - Q = 0,41, а в

третьем - Q = 0,236.

Границы интервалов выбирались следующим образом.

В соответствии с рекомендациями интервалы выбираются равными по длине (исключая первый и последний интервалы), а их значение можно определить по формуле

Q =

Qmax Qmin

,

(19)

m 1

 

 

 

где m - количество интервалов,

 

Qmax Qmin - разность между

максимальным и минимальным отсчетами исходного массива.

Таблица 5

 

 

Зна-

Кол.

 

 

 

Зна-

Кол.

 

 

 

Зна-

Кол.

 

 

 

 

Кол.

чение

от-

 

 

 

чени

от-

 

N

чение

от-

 

 

 

Зна-

сче-

 

N

е

сче-

 

сче-

 

N

че-

зна-

гра-

тов

 

гра-

тов

 

 

гра-

тов

 

 

 

n×∆Q

 

 

 

 

 

 

 

 

 

ния

че-

ницы

в

 

n×∆Q

ницы

в

 

 

 

ницы

в

 

n×∆Q

ряда

ний

ин-

ин-

 

 

 

ин-

ин-

 

 

 

ин-

ин-

 

 

 

ряда

тер-

 

 

 

 

 

 

тер-

 

 

 

 

 

вала

тер-

 

 

 

тер-

тер-

 

 

 

вала

тер-

 

 

 

 

 

 

вале

 

 

 

вала

вале

 

 

 

 

вале

 

 

 

1

2

3

4

5

 

6

7

8

 

9

10

11

 

2,5

1

 

 

 

 

 

- -

5

0,0508

 

- -

2

0,0353

 

2,6

1

 

 

 

 

 

 

2,666

 

- -

14

0,0707

 

2,765

 

 

 

 

 

2,7

3

 

 

 

 

 

 

 

 

 

 

2,9625

 

 

 

 

 

 

2,666 –

12

0,212

 

2,8

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,765

 

 

 

 

2,902

 

2,9

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

0,203

 

 

 

 

 

 

3,0

4

 

 

 

 

 

 

2,902 –

 

 

 

 

 

 

 

 

 

3,175

 

 

 

 

11

0,194

 

3,1

7

 

 

 

 

 

 

 

 

 

3,138

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,2

11

2,9625

 

 

 

 

3,175

 

 

 

 

3,138 –

23

0,406

 

3,3

12

 

 

 

 

 

 

 

 

3,374

 

-

78

0,394

 

49

0,498

 

 

 

 

 

3,4

13

 

 

3,374 –

 

 

 

 

3,7875

 

 

 

 

3,585

 

 

 

 

36

0,636

 

3,5

13

 

 

 

 

 

 

 

 

3,61

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,6

10

 

 

 

 

 

3,585

 

 

 

 

3,61 –

17

0,3

 

3,7

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

35

0,356

 

3,846

 

3,8

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,995

 

 

 

 

 

 

 

 

 

3,9

8

 

 

 

 

 

 

 

 

 

3,846 –

16

0,283

 

 

 

 

 

 

 

 

 

 

 

 

4,0

8

3,7875

 

 

 

 

3,995

 

 

 

 

4,082

 

 

 

 

 

 

 

 

 

 

 

 

 

4,1

2

 

 

 

 

 

 

 

 

4,082 –

 

 

 

 

4,2

4

-

53

0,2677

 

25

0,254

 

4,3184,

11

0,194

 

4,3

5

4,6125

 

 

 

 

4,405

 

 

 

 

318

 

 

 

 

4,4

6

 

 

 

 

 

 

 

 

 

 

4,318 –

10

0,177

 

4,5

4

 

 

 

 

 

4,405

 

 

 

 

4,554

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,6

7

 

 

 

 

 

 

 

 

 

4,554 –

 

 

 

 

 

 

 

 

 

33

0,335

 

17

0,3

 

4,7

10

 

 

 

 

 

 

4,79

 

 

 

 

 

 

4,815

 

 

 

 

 

 

 

 

4,8

12

 

 

 

 

 

 

 

 

 

4,79 –

39

0,689

 

 

 

 

 

 

 

 

 

 

 

 

4,9

13

 

 

 

 

 

 

 

 

 

 

 

4,6125

 

 

 

 

4,815

 

 

 

 

5,026

 

5,0

14

 

 

 

 

 

 

 

 

 

 

 

 

-

84

0,4242

 

45

0,457

 

 

 

 

 

 

5,1

10

 

 

5,026 –

 

 

 

 

5,4375

 

 

 

 

5,225

 

 

 

 

18

0,318

 

5,2

8

 

 

 

 

 

 

 

 

5,262

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5,3

9

 

 

 

 

 

5,225

 

 

 

 

5,262 –

17

0,3

 

5,4

8

 

 

 

 

 

 

 

 

 

5,498

 

 

 

 

 

 

25

0,254

 

 

 

 

 

5,5

6

 

 

 

 

 

 

 

 

 

 

 

5,4375

11

0,0556

 

5,635

 

 

 

 

5,498 –

10

0,177

 

5,6

2

 

 

 

 

 

 

- +

 

 

 

 

 

 

5,734

 

5,7

2

 

 

 

 

5,635

3

0,0305

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5,8

1

 

 

 

 

 

 

5,734 -

 

 

 

 

 

 

 

 

 

- +

 

1

0,0177

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Линейчатая диаграмма для данного массива имеет вид, представленный на рис.1.

15 отсч.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,5

2,7

2,9

3,1

3,3

3,5

3,7

3,9

4,1

4,3

4,5

4,7

4,9

5,1

5,3

5,5

 

5,7

 

2,6

2,8

 

3,0

 

3,2

 

3,4

 

3,6

3,8

 

4,0

 

4,2

 

4,4

 

4,6

4,8

 

5,0

 

5,2

 

5,4

5,6

5,8

Рис. 1 Линейчатая диаграмма

Уже на основании рис. 1 можно сделать предварительный вывод о том, что в данном ЗРВ может быть две моды. При этом оценки эксцесса и контрэксцесса свидетельствуют о том, что ЗРВ ближе к

равномерному и двухмодальному распределениям (см. табл. 2 и 3), чем к одномодальному. Именно по этой причине в соответствии с рекомендацией 4 для построения гистограмм целесообразно увеличить количество интервалов, например до 15.

Ниже по данным, приведенным в табл. 5, построены гистограммы, полигоны и кумулятивные кривые для различных значений интервалов.

Гистограмма 1, полигон 1 и график 1 построены по данным граф 3,4,5 табл. 5, гистограмма 2, полигон 2 и график 2 – по данным граф 6,7,8, а гистограмма 3, полигон 3 и график 3 – по данным граф 9,10,11.

Оценка энтропийного коэффициента, рассчитанная по формуле (11),

 

 

для первой гистограммы имеет значение kэ

= 1,933, для второй – kэ =

 

 

1,804, для третьей – kэ = 1,709. Уменьшение оценок энтропийного

коэффициента указывает на уменьшение интервала неопределенности, в котором должен находиться результат многократного измерения. Сравнивая полученные оценки числовых характеристик, в том числе и энтропийных коэффициентов с значениями числовых характеристик, приведенными в табл. 2 и 3, можно сделать предварительный вывод о том, что ЗРВ в данном случае отличается от нормального, арксинусоидального, треугольного и др. Можно предположить, что это двухмодальный ЗРВ, второй вариант - закон, состоящий из композиции

двух арксинусоидальных распределений (распределения 7,8 в табл. 2), и

третий - трапецеидальный.

Дополнительно необходимо остановиться на анализе полученных кумулятивных кривых. Известно, что функция распределения вероятности является интегральной функцией, поэтому все выпуклые части кумулятивной кривой могут обозначать экстремумы гистограммы. Если на первой гистограмме выпуклости заметны слабо, что может означать близость к равномерному или трапецеидальному ЗРВ, то на третьей гистограмме хорошо наблюдаются две выпуклости, которые указывают на двухмодальность ЗРВ. Таким образом, вероятнее всего исходный массив отсчетов представляет собой двухмодальный ЗРВ.

 

 

Гистограмма 1

Полигон 1

 

 

0,45

 

 

 

0,45

 

0,4

 

 

 

0,4

 

0,35

 

 

 

0,35

N/n*dQ

0,3

 

 

 

0,3

0,25

 

 

 

0,25

0,2

 

 

 

0,2

0,15

 

 

 

0,15

 

 

 

 

 

0,1

 

 

 

0,1

 

0,05

 

 

 

0,05

 

0

 

 

 

0

 

1

2

3

4

5

 

 

Номера интервалов

 

 

График 1

 

1

 

0,9

Вероятность

0,8

0,7

0,6

0,5

0,4

0,3

 

0,2

 

0,1

 

0

 

1

 

2

 

3

 

4

 

5

 

 

 

Номера интервалов

 

 

 

 

 

Гистограмма 2

 

Полигон 2

 

 

0,6

 

 

 

 

 

 

 

0,6

 

0,5

 

 

 

 

 

 

 

0,5

N/n*dQ

0,4

 

 

 

 

 

 

 

0,4

0,3

 

 

 

 

 

 

 

0,3

0,2

 

 

 

 

 

 

 

0,2

 

 

 

 

 

 

 

 

 

0,1

 

 

 

 

 

 

 

0,1

 

0

 

 

 

 

 

 

 

0

 

1

2

3

4

5

6

7

8

9

 

 

 

Номера интервалов

 

 

 

График 2

 

1

 

0,9

Вероятность

0,8

0,7

0,6

0,5

0,4

0,3

 

0,2

 

0,1

 

0

 

1

2

 

3

 

4

5

 

6

7

8

9

 

 

 

 

Номера интервалов

 

 

 

 

 

 

Гистограмма 3

 

Полигон 3

 

 

0,8

 

 

 

 

 

 

 

 

 

 

0,8

 

0,7

 

 

 

 

 

 

 

 

 

 

0,7

 

0,6

 

 

 

 

 

 

 

 

 

 

0,6

N/n*dQ

0,5

 

 

 

 

 

 

 

 

 

 

0,5

0,4

 

 

 

 

 

 

 

 

 

 

0,4

0,3

 

 

 

 

 

 

 

 

 

 

0,3

 

 

 

 

 

 

 

 

 

 

 

 

0,2

 

 

 

 

 

 

 

 

 

 

0,2

 

0,1

 

 

 

 

 

 

 

 

 

 

0,1

 

0

 

 

 

 

 

 

 

 

 

 

0

 

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15

 

 

 

 

 

Номера интервалов

 

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]