Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Анализ данных отчеты Катков / Практическая работа №1

.pdf
Скачиваний:
27
Добавлен:
27.05.2015
Размер:
769.78 Кб
Скачать

mx=-2, σ2=0.5

mx=0, σ2=0.2 mx=0, σ2=1.0 mx=0, σ2=5.0

Рисунок 3 – Нормальное распределение

λ=1.5

λ=1.0

λ=0.5

Рисунок 4 – Экспоненциальное распределение

11

α=2, β=5

α=2, β=5

α=β=2

α=5, β=1

α=β=0.5

Рисунок 5 – β-распределение

k=1, θ=2.0

k=9, θ=0.5

k=5, θ=1.0

k=2, θ=2.0

k=3, θ=2.0

Рисунок 6 – γ-распределение

12

λ=4

λ=1

λ=10

Рисунок 7 – Распределение Пуассона

После того, как подобрано одно или несколько теоретических распределений, с которыми согласуются экспериментальные данные, следует определить параметры распределения, с тем, чтобы подвергнуть их проверке по статистическим критериям.

Табличный процессор Excel предлагает широкий диапазон средств для анализа данных. Помимо встроенных статистических функций он имеет специальный пакет анализа. Он представляет собой надстройку, которую перед использованием необходимо сначала загрузить. При работе с MS Office 2007:

1.Щелкните значок Кнопка Microsoft Office , а затем щелк-

ните Параметры Excel.

2.Выберите команду Надстройки и в окне Управление выбери-

те пункт Надстройки Excel.

3.Нажмите кнопку Перейти.

4.В окне Доступные надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

13

При работе с MS Office 2003 выберите в меню Сервис команду Надстройки и затем – Пакет анализа в списке надстроек, после чего нажмите кнопку ОК.

Если выполнена полная установка Excel, чтобы получить доступ

кинструментам пакета анализа, выполните следующие действия:

1.Выберите в меню Сервис либо на вкладке Данные команду Анализ данных при этом на экране появится диалоговое окно (рисунок 8).

2.Чтобы использовать инструмент анализа, выберите его имя из списка и нажмите кнопку ОК.

Рисунок 8 – Диалоговое окно Анализ данных

Пусть требуется построить гистограмму. Выберите из списка инструментов анализа раздел Гистограмма и нажмите кнопку ОК. При этом появится диалоговое окно (рисунок 9).

Рисунок 9 – Диалоговое окно Гистограмма

В поле Входной интервал указывается диапазон ячеек, в которых расположены данные. Например, A1:A300. Поле интервалов кар-

14

манов можно оставить пустым. В этом случае Excel создаст равные интервалы разбиения, используя минимальное и максимальное значения исходных данных в качестве начальной и конечной точек. Число интервалов принимается равным квадратному корню из числа входных значений. В случае самостоятельного выбора числа интервалов и их границ (интервалы разбиения не обязательно должны быть одинаковы) необходимо в поле Интервал карманов указать место нахождения значений границ интервалов разбиения, записанных по возрастанию (например, С2:С12). В поле Выходной интервал указывается верхняя левая ячейка выходного диапазона, в котором выводятся результаты (например, D1).

Инструмент Гистограмма может создавать отсортированные гистограммы (Парето, выходные данные отсортировываются в порядке убывания частот), выводить накопленные проценты и генерировать диаграммы. Для этого необходимо установить флажки в диалоговом окне в разделе Параметры вывода.

При установке флажка Вывод графика в окне диалога инструмент Гистограмма построит диаграмму одновременно с выводом результатов анализа. На рисунке 10 приведена гистограмма, построенная по 300 данным с заданными значениями границ интервалов разбиения.

Рисунок 10 – Гистограмма с таблицей исходных данных

15

Задание 1

1.На диске Work в папке Анализ данных найти файл Данные для практических работ. Открыть новую книгу Excel и скопировать в нее данные (три ряда данных) для анализа в соответствии со своим вариантом. Для выполнения заданий первой практической работы следует взять первый ряд варианта.

2.Для ряда данных построить две гистограммы при разбиении диапазона изменения величины на 5 и 7 интервалов.

Чтобы определить диапазон изменения случайной величины D следует построить вариационный ряд. Вариационный ряд – это ряд, упорядоченный по возрастанию или убыванию. Тогда первое и последнее значения вариационного ряда есть границы диапазона изме-

нения величины D = [xmin, xmax]. Далее рассчитывается длина интервала разбиения диапазона h, как

h =

D

,

(18)

 

q

 

 

где q – количество интервалов. Начиная от xmin и прибавляя последовательно h, рассчитываются границы всех интервалов разбиения диапазона D (рисунок 11).

Рисунок 11 – Расчет диапазона изменения и границ интервалов

Определив границы и используя вариационный ряд, подсчитывается количество отсчетов ряда, попавших в каждый интервал, а затем, разделив полученные значения на общее количество данных, оп-

16

ределяется частота попадания величины в каждый интервал (рисунок

12).

Рисунок 12 – Построение статистического ряда 3. По результатам визуального анализа полученных гистограмм

выдвиньте гипотезу о законе распределения, которому подчинена рассматриваемая случайная величина.

2. Задача проверки правдоподобия гипотез

После того, как для данного статистического распределения выбрана некоторая теоретическая кривая f(x), необходимо проверить насколько хорошо они согласуются между собой и расхождения между ними объясняются случайными обстоятельствами, связанными с ограниченным объемом выборочных данных, или оно являются существенными и связаны с тем, что подобранная кривая плохо описывает данное статистическое распределение. Для ответа на этот вопрос служат критерии согласия. Наиболее часто используется критерий Пирсона или критерий χ2 (читается хи-квадрат).

Пусть имеется статистический ряд (таблица 2) Таблица 2 – Статистический ряд

Ii

[x1, x2]

[x2, x3]

[xi, xi+1]

[xq, xq+1]

φi

φ1

φ2

 

φi

 

φq

Требуется проверить, согласуются ли экспериментальные данные с гипотезой о том, что случайная величина Х подчинена теоретическому закону распределения f(x).

17

Зная теоретический закон распределения можно найти теоретические вероятности р1, р2, …, pq попадания случайной величины в каждый интервал. Проверяя согласованность теоретического и статистического распределений, исходят из расхождений между теоретическими вероятностями pi и наблюденными частотами φi. В качестве меры расхождения используется сумма квадратов отклонений (φi pi):

q

 

 

 

U = ci (ϕi pi )2 ,

(19)

i=1

L

 

 

ci =

,

(20)

 

 

pi

 

где сi – весовые коэффициенты;

L– объем выборки.

При таком выборе коэффициентов сi мера расхождения опреде-

ляется как

q

(ϕ

i

p

)2

q

(m

Lp

)2

 

χ2 = L

 

i

 

=

i

i

 

(21)

 

 

pi

 

 

Lpi

 

i=1

 

 

 

i=1

 

 

 

mi – количество попаданий величины х в i-й интервал

Распределение χ2 зависит от параметра r, называемого числом степеней свободы, которое определяется как разность количества интервалов и число независимых условий, наложенных на частоту φi.Такими условиями могут быть требования:

1. Сумма всех частот равна 1

q

 

ϕi =1

(22)

i=1

2.Равенство теоретического и статистического среднего значения

q

~ϕ =

xi i mx

i=1

– середина интервала;

mx – теоретическое среднее значение.

3. Равенство теоретической и статистической дисперсии.

q ~

2

ϕi = dx

(xi mx )

i=1

(23)

(24)

dx – теоретическая дисперсия.

Для распределения χ2 составлены специальные таблицы, пользуясь которыми можно для каждого значения χ2 и числа степеней свободы r найти вероятность р того, что величина, распределенная по за-

18

кону χ2, превзойдет это значение. Вероятность р, определенная по таблице, есть вероятность того, что за счет чисто случайных причин мера расхождения теоретического и статистического распределений будет не меньше, чем фактически наблюдаемое значение χ2.Если эта вероятность мала, то выдвинутую гипотезу о законе распределения f(x) следует отбросить как неправдоподобную. В противном случае, можно признать расхождения между теоретическим и статистическим распределениями несущественными.

Для практического применения критерия f(x) следует иметь в виду, что объем исследуемых данных L должен быть достаточно велик (несколько сотен), а в каждом интервале рекомендуется иметь не менее 5 – 10 значений.

Пусть имеется статистическое распределение, построено по L=200 отсчетам ряда данных (таблица 3).

Таблица 3 – Статистическое распределение

Ii

[2,3; 3,34]

[3,34; 4,38]

[4,38; 5,42]

[5,42; 6,46]

[6,46; 7,5]

mi

13

39

85

50

13

φi

0,065

0,195

0,425

0,25

0,065

 

2,82

3,86

4,90

5,94

6,98

Вычислим статистическое среднее тх, за представителя каждого

разряда используем его середину

:

 

q

~

(25)

mx = xiϕi

i=1

тх =2,82·0,065+3,86·0,195+4,90·0,425+5,94·0,25+6,98·0,065=4,957

Для определения дисперсии dх и среднеквадратического отклонения σх сначала вычислим второй начальный момент α2:

q ~2

=25,614

(26)

α2 = xi ϕi

i=1

 

 

d x =α2 (mx )2 =25,614 – 4,9572=1,040

(27)

σx = dx

 

(28)

Пользуясь теоретическим нормальным законом распределения с параметрами тх =4,957 и σх=1,020, находим вероятность попадания в интервалы по формуле

19

p

 

=

1

) x

i+1

m

 

 

) x

i

m

 

(29)

 

2

Ф

 

2σ

 

x

Ф

 

 

x

 

i

 

 

 

ρ

x

 

 

ρ 2σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

где xi, xi+1 – границы i-го интервала;

Ф()– приведенная функция Лапласа (Таблица 1 Приложения); ρ=0,477 – постоянная.

Таблица 4 – Вероятности попадания в интервалы

Ii

[2,3; 3,34]

[3,34; 4,38]

 

[4,38; 5,42]

 

[5,42; 6,46]

 

[6,46; 7,5]

рi

 

 

0,052

 

 

 

0,230

 

 

0,390

 

 

0,255

 

 

0,064

i

 

 

10,4

 

 

 

 

46,0

 

 

78,0

 

 

51,0

 

 

12,8

 

По формуле (21), используя данные таблиц 3 и 4, определяем

значение меры расхождения

 

 

 

 

 

 

 

 

 

 

 

 

 

q

(m

Lp

)2

 

 

13

10,4

 

39 46

 

8578

 

50 51

 

12

12,8

 

χ2 =

i

i

 

 

=

 

 

 

+

 

 

+

 

 

+

 

+

 

 

 

= 2,366

 

Lpi

 

 

10,4

 

46

78

 

51

12,8

i=1

 

 

 

 

 

 

 

 

 

 

 

Определяем число степеней свободы r= 8 – 3=5. По таблице 2 Приложения находим для r=5:

при χ2=3,00 вероятность р=0,70; при χ2=2,34 вероятность р=0,80.

Следовательно, искомая вероятность р при χ2=2,366 приближенно равна 0,79. Эта вероятность малой не является, поэтому гипотезу о том, что случайная величина распределена по нормальному закону, можно считать правдоподобной.

Задание 2

Проверить согласованность теоретического и статистического распределения, полученного при выполнении задания 1.

20

Соседние файлы в папке Анализ данных отчеты Катков