Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК по ТВ и МС

.pdf
Скачиваний:
108
Добавлен:
28.11.2019
Размер:
10.53 Mб
Скачать

где tα/ 2 100% (n1 + n2 2) верхняя процентная точка tраспределения Стьюден-

та, определяемая по статистическим таблицам. Т.к. tраспределение симметрично, то нижняя и верхняя критические точки симметричны относительно 0.

5-й шаг. Определение расчетного значения критической статистики

 

 

 

x

y

 

 

 

 

 

 

ψcalc =

 

 

 

 

 

 

n1n2

(9.10)

 

 

 

 

 

 

 

(n

1)s2

+ (n

 

 

 

2

1)s2

n1 + n2

 

1

 

x

 

 

y

 

 

n1 + n2 2

Если выполняется условие ψcr.l ψрасч ψcr.u, то гипотеза H0 принимается. В противном случае H0 отвергается с ошибкой первого рода α.

Замечание 9.8. Данный алгоритм проверки гипотез о равенстве aξ и aη можно использовать и при отклонении распределения случайных величин ξ и η от нормального, но при условии, что n1 и n2 больше 30.

Пример 9.9. Для данных примера 9.4 проверить для α = 0,01 гипотезу о равенстве математических ожиданиях aξ и aη, если дисперсии неизвестны.

Решение. Оценки математических ожиданий и несмещенные оценки дис-

персий

определим по исходным выборкам: a)ξ = x =17,84 , a)η = y =17,65 ,

)

)

σξ2 = sx2

=8,55, ση2 = sy2 =8,30.

Находим, используя таблицу процентных точек tраспределения, верхнюю и нижнюю критические границы: ψcr.u = t0,005 (108) = 2,62 , ψcr.l = 2,62. Определяем по (9.10) расчетное значение критической статистики:

ψcalc =

 

 

 

17,84 17,65

 

 

 

= 0,065 .

 

 

 

 

 

 

 

 

54 8,55 + 54 8,30

 

 

 

108

 

 

 

 

Поскольку условие ψcr.l ≤ ψcalc ≤ ψcr.u выполняется, то H0 не отвергается.

Пример 9.10. Коммерческий банк заказал маркетинговое исследование по выявлению эффекта «премирования» как стимула для открытия счета в банке. Для проверки случайным образом было отобрано 200 «премированных» посетителей и 200 «непримированных». В результате выяснилось, что 89% посетителей, которым предлагалась премия, и 79% посетителей, которым не предлагалась премия, открыли счет в банке в течение 6 месяцев.

Используя эти данные, проверьте гипотезу о том, что доля «премированных» посетителей, открывших счет в банке, существенно отличается от удельного веса «непремированных» посетителей, открывших счет в банке. Принять уровень значимости α = 0,05.

Решение. Проверим гипотезу о равенстве математических ожиданий удельных весов случайных величин при неизвестных дисперсиях. Расчетное значение t-статистики определяется по формуле

121

 

 

 

 

 

x y

 

 

 

 

 

 

 

 

 

 

 

 

 

ψcalc =

 

 

 

 

 

 

 

 

 

 

n1n2

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n 1)s2

+ (n

 

 

 

 

 

 

 

 

 

2

1)s2

n1 + n2

 

 

1

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1 + n2 2

 

 

 

 

 

 

 

 

 

 

где n1 = n2 = 200 , x = 0,89 ,

y = 0,79 . Определим дисперсии долей:

sx2 = x(1 x) = 0,89 0,11 = 0,0979 ,

sy2 = y(1 y) = 0,79 0,21 = 0,1659 .

В результате расчетное значение t-статистики равна

ψcalc =

 

 

 

 

0,89 0,79

 

 

 

 

 

200 200

= 2,753.

 

1)

 

 

 

 

 

 

 

 

 

 

 

(200

0,0979 + (200 1) 0,1659

200 + 200

 

 

 

 

 

 

 

200 + 200 2

 

 

 

 

 

 

 

Критические значения статистики определим по таблице:

ψcr.u = tα/ 2100% (n1 + n2 2) = t2,5% (398) = 1,966 ; ψcr.l = 1,966.

Поскольку условие ψcr.l ≤ ψcalc ≤ ψcr.u не выполняется, то H0 отвергается. Со статистической надежностью 0,95 можно считать, что доля «премированных» по-

сетителей, открывших счет в банке, существенно отличается от удельного веса «непремированных» посетителей, открывших счет в банке.

9.5. Проверка гипотез о стохастической независимости элементов выборки

Прежде чем приступить к статистической обработке результатов наблюдений, необходимо убедиться в том, что элементы выборки образуют случайную последовательность (являются случайными и независимыми).

9.5.1.Критерий «восходящих» и «нисходящих» серий

Вкритерии «восходящих» и «нисходящих» серий предварительно форми-

руется последовательность серий «+» и «». Для этого в исходной выборке

(x1, … , xn) на месте i-го элемента ставят «+», если xi+1 > xi , и «», если xi+1 < xi . Если xi+1 = xi , то в серии ничего не проставляется. Полученная последователь-

ность «+» и «» может характеризоваться количеством серий ν(n) и длиной самой длинной серии τ(n). Под серией понимается последовательность подряд идущих «+» или «». Длина серии количество подряд идущих «+» или «».

1-й шаг. Формулирование основной и альтернативной гипотез: H0 элементы выборки являются стохастически независимыми, Н1 элементы выборки не являются стохастически независимыми. 2-й шаг. Задание уровня значимости α.

3-й шаг. Формирование двумерной критической статистики ψcr = ψ{v(n), τ(n)}. Предельное распределение статистики ψcr является двумер-

ным с частными предельными распределениями ν(n) и τ(n).

4-й шаг. Определение верхней и нижней критических точек распределения

122

 

1

(2n − 1)

− u1−α/ 2

16n −

29

 

,

(9.11)

ψcr.u = νcr(n) =

3

90

 

 

 

 

 

 

 

 

 

5, n 26,

ψcr.l = τcr(n) = 6, 26 < n 153, (9.12)

7, 153 < n 1170.

5-й шаг. Определение расчетных значений критической статистик νcalc(n), которая равна количеству серий в последовательности «+» и «», и τcalc(n) длина самой длинной очереди. Если одновременно выполняются условия

vcalc (n) vcr (n), (9.13)

τcalc (n) ≤ τcr (n),

то H0 принимается с ошибкой первого рода α. В противном случае элементы выборки нельзя считать стохастически независимыми.

Замечание 9.9. Критерий «восходящих» и «нисходящих» серий улавливает смещение оценки математического ожидания монотонного и периодического характера. Данный критерий является ранговым и применим для выборки с любым законом распределения.

Пример 9.11. Для выборки (x1, … , x27) из примера 9.5 проверить гипотезу о стохастической независимости элементов выборки для уровня значимости α = 0,05 с помощью критерия «восходящих» и «нисходящих» серий.

Решение. Построим последовательность серий

+ + + + + + + + − − − − + + − − +.

Получим νcalc(27) = 20; τcalc(27) = 4. Найдем из (9.11), (9.12) νcr(n) и τcr(n):

τcr(27) = 6; νcr(n) =

1

(2 27 1) 1,96

16 27 29

=13,52 .

3

90

 

 

 

Поскольку условия (9.13) выполняются, то H0 не отвергается и элементы выборки можно считать случайными и независимыми.

9.5.2. Критерий стохастической независимости Аббе

Если выборка (x1, … , xn) принадлежит нормальной генеральной совокупности, то для выяснения вопроса о ее случайности предпочтительнее воспользоваться критерием Аббе. Критерий Аббе позволяет обнаружить систематическое смещение среднего в ходе выборочного обследования.

1-й шаг. Формулирование основной и альтернативной гипотез: H0 элементы выборки являются стохастически независимыми, Н1 элементы выборки не являются стохастически независимыми. 2-й шаг. Задание уровня значимости α.

3-й

шаг. Формирование критической статистики ψcr = q2 (n) / σ2x , где

q2 (n) =

1

n1(x

i+1

− x )2

. При n ≤ 60 предельное распределение критиче-

 

 

2n −1

i=1

i

 

 

 

 

 

 

123

ской статистики γ(αn) затабулировано и представлено в статистических таблицах

для различных значений α.

4-й шаг. Определение нижней критической точки осуществляется двумя

способами. Если n > 60, то ψ

= 1 +

 

 

u1−α/ 2

 

 

. При n 60 ψ

= γ(n)

 

 

 

 

 

 

 

 

 

 

 

cr.l

+ 0,5(1 + u2

 

)

cr.l

α

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

1−α/ 2

 

 

 

находится по статистическим таблицам критерия Аббе.

 

 

 

5-й шаг.

Определение

расчетного

значения

критической статистики

 

q2

(n)

 

2

 

 

 

 

 

 

 

 

 

ψcalc =

 

 

,

где sx

несмещенная

 

оценка дисперсии выборки.

Если

sx2

 

 

 

 

 

 

 

 

 

 

 

 

 

ψcalc ≥ ψcr.l, то гипотеза H0 о стохастической независимости элементов выборки принимается с ошибкой первого рода α. В противном случае элементы выборки нельзя считать случайными и независимыми.

Пример 9.12. Для выборки (x1, … , x27) из примера 9.5 проверить гипотезу о стохастической независимости элементов выборки для уровня значимости α = 0,05 с помощью критерия Аббе.

Решение. Поскольку n 60, то с помощью таблицы для α = 0,05 получим

ψcr.l = γ(027,05) = 0,69.

Вычислим по выборке оценки: sx2 = 23,89, q2(n) = 30,31. Следовательно,

ψcalc = 30,31 / 23,89 = 1,27. Т.к. ψcalc ≥ ψcr.l, то H0 не отвергается и элементы выборки можно считать случайными и независимыми.

124

РАЗДЕЛ 3. СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

В предыдущих главах были даны основные понятия и определения теории вероятностей и математической статистики. Теория вероятностей и математическая статистика представляют лишь теоретический фундамент для изучения статистических зависимостей, но не ставят своей целью установление причинной связи. Эти вопросы решаются с помощью статистических методов обработки экспериментальных данных. Общая схема основных этапов статистического анализа изображена на рис. 10.1.

Рис. 10.1. Общая схема основных этапов статистического анализа.

Экономические процессы носят вероятностный (а часто, неопределенный) характер. Поэтому возрастает роль вероятностно-статистических методов в изучении экономики. В связи с этим, представляется целесообразным закончить изучение данного курса рассмотрением основных методов статистического анализа, получивших наибольшее распространение при изучении экономики.

125

В данном разделе приведено описание основных методов, используемых в статистическом анализе социально-экономических явлений.

Глава 10. Дисперсионный анализ

В § 9.4 была рассмотрена проверка значимости различия выборочных средних двух совокупностей. На практике часто возникает необходимость обобщения задачи на случай нескольких (более чем двух) совокупностей. Эта проблема решается с помощью дисперсионного анализа. Идея дисперсионного анализа, как и сам термин «дисперсия», принадлежит английскому статистику Р. Фишеру. Метод был разработан в 1920-х годах.

Дисперсионный анализ позволяет оценивать влияние на количественный отклик Y неколичественных факторов (X1, , Xn) с целью выбора среди них наиболее важных. Такими качественными факторами могут быть тип оборудования или технологического процесса, вид сырья, способ обработки и другие условия, влияющие на выходные характеристики изделия.

10.1. Основные понятия дисперсионного анализа

Определение 10.1. Дисперсионный анализ – метод статистического анализа, позволяющий определить достоверность гипотезы о различиях в средних значениях на основании сравнения дисперсий распределений.

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудова-

ние или материал) называется уровнем фактора или способом обработки. Мо-

дель дисперсионного анализа с фиксированными (или систематическими) уровнями факторов называют моделью I, модель со случайными факторами – моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

Пример 10.1. Пусть необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора – партии изделий. Если включить в исследование все партии изделий, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались для исследования; если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II).

Дисперсионный анализ основан на разложении общей дисперсии (вариации) отклика на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Оценив влияние факторов, дисперсионный анализ позволяет выбрать среди них наиболее важные.

126

В зависимости от количества факторов, включенных в анализ, различают одно- и многофакторный дисперсионный анализ.

10.2.Однофакторный дисперсионный анализ

10.2.1.Аддитивная модель однофакторного дисперсионного анализа

Пусть измеряются размеры Y однотипных деталей, изготавливаемых на параллельно работающем оборудовании. Все наблюдения отклика представляют-

ся в виде матрицы наблюдений (табл. 10.1).

Таблица 10.1

Номер на-

 

Уровни фактора A (способы обработки)

 

блюдения

1

 

2

j

 

n

1

y11

 

y12

y1j

y1n

2

y21

 

y22

y2j

y2n

 

 

i

yi1

 

yi2

yij

yin

 

 

m

ym1

 

ym2

ymj

ymn

Здесь n – число станков или уровней фактора A, влияние которого на размеры деталей Y исследуется при дисперсионном анализе. На каждом j-м уровне производится m наблюдений. Заметим, что в общем случае объемы выборок на каждом уровне могут не совпадать.

Для описания данных матрицы наблюдений при дисперсионном анализе используется аддитивная модель. Каждое наблюдение отклика yij представляется в виде суммы вклада воздействия фактора aj и независимой от вклада фактора случайной величины (возмущения) εij

yij = a j + εij = μ + τj + εij , (i =1,..., m, j =1,..., n) .

(10.1)

Величина a j = μ + τ j является средним значением отклика (размера дета-

лей) для j-го уровня фактора (j-го станка). Эта неслучайная величина – результат действия соответствующего способа обработки.

Величина μ является общим средним уровнем отклика μ = 1 n= a j .

n

j 1

Величина τj = a j − μ − отклонение от среднего уровня при j-й обработке,

или эффект, обусловленный влиянием j-го фактора, nj =1 τj = 0 .

Предложение 10.1. Основные предпосылки дисперсионного анализа:

1.Математическое ожидание возмущения εij M[εj] = 0 для любых j.

2.Возмущения εij взаимно независимы.

3.Дисперсия переменной Y (или возмущения ε) постоянна для любых i, j.

4.Переменная Y (или возмущение ε) имеет нормальный закон распределения. #

127

Одинаково распределенные случайные величины εij отражают присущую наблюдениям внутреннюю изменчивость. Они характеризуют эффект случайности или влияние неучтенных аддитивной моделью (10.1) факторов. Таким образом, общая вариация отклика yij −μ может быть разложена на составляю-

щую τ, которая характеризует влияние фактора и случайную часть от воздействия неучтенных факторов.

Стратегия дисперсионного анализа заключается в следующем. Проверяется нулевая гипотеза об отсутствии эффектов обработки

H0: τ1 = τ2 =... = τn = 0 . Если H0 справедлива, то все данные матрицы наблюде-

ний принадлежат одному и тому же распределению, т.е. данные однородны: a1 = a2 =K= an . Различие между столбцами (для разных станков или уровней

фактора) объясняется лишь эффектом случайности. На этом однофакторный дисперсионный анализ заканчивается.

Если H0 отвергается, то принимается альтернативная гипотеза H1: τ1 ≠ τ2 ... ≠ τn = 0 – различие в средних значениях отклика обусловлено не

только эффектом случайности, но и действием исследуемого фактора. В этом случае строятся доверительные интервалы для воздействий фактора aj, (j = 1, … , n).

10.2.2. Базовая таблица однофакторного дисперсионного анализа

 

 

n m

 

 

Пусть Q = ∑∑( yij y)2 общая (полная) сумма квадратов отклонений

 

 

j=1 i=1

общей средней y , где

отдельных наблюдений отклика yij относительно

 

1

n m

 

y =

 

∑∑yij является оценкой общего среднего μ,

μ ≈ y . После ряда преоб-

 

 

mn j=1 i=1

 

разований можно получить следующее основное тождество дисперсионного анализа о разбиении величины Q на слагаемые:

n m

 

 

 

n

 

n m

y j )2 ,

 

∑∑( yij y)

2

= m( y j

y)2

+ ∑∑( yij

(10.2)

j=1 i=1

 

 

j=1

 

j=1 i=1

 

 

1442443

1442443 1442443

 

 

 

Q

 

QA

 

Qε

 

 

 

1

m

 

 

 

 

 

 

где y j =

 

yij

средние значения столбцов матрицы наблюдений, т.е. сред-

 

 

m i=1

 

 

 

 

 

 

няя арифметическая m наблюдений j-го уровня. Замена индекса точкой означает результат суммирования по этому индексу. Величина y j является оценкой

воздействия фактора на j-м уровне aj, a j y j .

Слагаемое QA в (10.2) сумма квадратов между группами наблюдений, ха-

рактеризует расхождения между уровнями фактора aj, (j = 1, … , n), т.е. вклад в общую сумму квадратов, обусловленный рассеянием за счет исследуемого фактора. Этот вклад можно считать обусловленным введенной моделью.

128

Слагаемое Qε сумма квадратов внутри групп наблюдений (или остаточное рассеяние), характеризует случайную изменчивость наблюдений внутри групп за счет неучтенных факторов.

Результаты вычислений представляют в виде базовой таблицы однофакторного дисперсионного анализа:

Источник дисперсии

Сумма квадратов

Число степеней

 

 

 

свободы

Между группами

QA

 

n1

(фактор A)

 

 

 

 

Внутри групп (оста-

Qε

 

n(m1)

точное рассеяние)

 

 

 

 

 

 

 

 

Полная (общая)

Q = QA

+ Qε

 

nm 1

Таблица 10.2

Средний квадрат (оценка дисперсии)

sA2 =

QA

 

 

 

n 1

 

 

 

 

 

 

sε2

=

 

 

Qε

 

n(m 1)

 

 

 

 

s2y

=

 

Q

 

 

nm 1

 

 

 

 

 

Число степеней свободы в общем случае равно числу независимых наблюдений, уменьшенному на число параметров, оцениваемых по этим наблюдениям при вычислении статистики. Например, при вычислении Qε число наблюдений равно nm, число оцениваемых параметров y j равно n, поэтому число сте-

пеней свободы равно n(m–1). Зная суммы квадратов Q, QA и Qε и их число степеней свободы, вычисляются соответствующие дисперсии: общую sy2, межгрупповую sA2 и внутригрупповую sε2, причем

s2y = sA2 + sε2 .

(10.3)

Для проверки нулевой гипотезы H0 используется критическая статистика, называемая F–отношением, равная

ψcr = σ2A σε2 .

(10.4)

Предложение 10.2. Предельное распределение статистики ψcr как случайной величины в случае справедливости проверяемой гипотезы H0 стремится к Fраспределению Фишера F (n1 , n2 ) с n1 и n2 числом степеней свобо-

ды lim Fψcr (x) = F(n1 1,n2 1) , где n1 = n–1, n2 = n(m–1). #

n1,n2 →∞

Чем сильнее нарушается гипотеза H0, тем большую тенденцию к возрастанию проявляет F–отношение. Для уровня значимости α находится критическое

значение Fα. При расчетном значении F–отношения ψcalc > Fα 100%(n–1, n(m–1)) гипотеза H0 отвергается и делается вывод о существенном влиянии фактора A.

F–отношение (10.4) позволяет обнаружить, значимо ли различаются способы обработки. Если гипотеза H0 отклонена, то дальнейший анализ связан с оцениванием воздействий aj, (j = 1, … , n) фактора A. Только вычислив доверительные границы для воздействий фактора, можно сказать, пересекаются ли некоторые из интервалов, и упорядочить по значениям воздействия aj.

129

Их точечными оценками являются внутригрупповые средние y j , которые имеют распределения N (a j ,σε2 / m) , где σε2 sε2 .

Статистика t =

y j a j

m

подчиняется распределению Стьюдента с

sε

 

 

 

k = n(m 1) степенями свободы. Тогда доверительный интервал для aj при уров-

не значимости α имеет вид: y j

sε

tα/ 2 100% (k) < a j < y j

sε

tα/ 2 100% (k) .

 

m

 

m

 

Если доверительные интервалы для всех aj не пересекаются, можно ранжировать способы обработки по степени их влияния на размеры деталей Y.

Пример 10.2. Имеются четыре партии сырья для текстильной промышленности. Из каждой партии отобрано по пять образцов и проведены испытания на определение величины разрывной нагрузки. Результаты испытаний приведены в таблице 10.3.

Таблица 10.3 Значения разрывной нагрузки (кг/см2)

Номер образца

 

Номер партии

 

1

 

2

3

4

 

 

1

200

 

190

230

150

2

140

 

150

190

170

3

170

 

210

200

150

4

145

 

150

190

170

5

165

 

150

200

180

Необходимо выяснить для уровня значимости α = 0,05, существенно ли влияние различных партий сырья на величину разрывной нагрузки.

Решение. Имеем m = 5, n = 4. Найдем средние значения разрывной нагруз-

ки

y

j

для каждой партии:

y

= (200 +140 +170 +145 +165) / 5 =164(кг/см2) и

 

 

 

1

y4 =164 (кг/см2).

аналогично y2 =170 , y3 = 202 ,

Общее среднее значение разрывной нагрузки y всех образцов равно: y = (200 +140 +170 +... +150 +170 +180) / 20 =175 (кг/см2).

Сумма квадратов между группами наблюдений QA согласно (10.2) равна:

QA =54j=1( y j y)2 =5[(164 175)2 +...+(164 175)2 ] =5 996 = 4980.

Сумма квадратов внутри групп наблюдений Qε равна:

Qε = 4

5

( yij y j )2 = (200 164)2 +... + (165 164)2 +

j=1

i=1

 

+(190 170)2 +... + (150 170)2 + (230 202)2 +... + (200 202)2 +

+(150 164)2 +... + (180 164)2 = 7270 .

Тогда полная сумма квадратов отклонений отдельных наблюдений составит

Q = QA + Qε = 4980 + 7270 = 12250.

Соответствующие числа степеней свободы для этих сумм составят: n 1 = 3; n(m–1) = 4 (5–1) = 16; nm1 = 4 5–1 = 19.

130