Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Непараметрическая статистика

..pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
13.36 Mб
Скачать

так как последний инте1 рал в (5.4.14) равен нулю. Вычис­

ления р(F) для некоторых типов распределений дают сле­ дующие результаты (Стьюарт [1], Кендалл [1])

для равномерного распределения

 

Р*(/=■)= 1,

(5.4.15)

для нормального распределения

 

P ^ ) = j / “ =0.9772,

(5.4.16)

для семейства гамма-распределений, элемент вероятности которых записывается в виде

d F ( x ) ^ —

-е-х х т~Чх,

(5.4.17)

г(да)

 

 

 

Г ^ +

? )

УЗ т

<2т_1)1! (54 ,8)

Г(от+1)

 

ml

В связи с тем, что вычисления линий регрессии доводятся до конца лишь в частном случае равномерного распределения выборочных значений, а коэффициент корреляции вскрывает лишь линейную компоненту статистической зависимости и является исчерпывающим показателем связи лишь для ком­ понент нормального двумерного распределения, возникает некоторое сомнение в общности полученных выше результа­ тов. Рассмотрим поэтому более общую количественную меру связи двух случайных величин — количество информации в одной из них о другой — при произвольном распределении р(х). Подставив в функционал количества информации

, №

* )“ j y

/ ( X l

* )ta7 w 7

™ ‘' x -

(И Л 9)

распределения

(5.4.1),

(5.4.3)

и (5.4.4),

производя

замену

F(x)— t и расписав логарифм произведения как сумму лога­ рифмов, имеем:

1(Х, Я ) = 2 1 п — -

т

■C NR J

 

 

( N - R ) l

 

R

( а - ■1)1

 

 

+ 2

Сл* /

 

In t R ~ ^ d t - \ -

 

R

0

 

 

 

 

+

f

 

0 Л_Лi n(i —

(5.4.20)

 

0

 

 

 

 

103

где С NR (N—l)\l[(R— 1 )\(N—Л)!]. Первый интеграл равен

1/(NCNR) ( C M .

(3.3.2)); второй

и третий выражаются через

бета- и пси-функции (см. Рыжик и Градштейн

[1], (4.253.1)),

и после несложных преобразований получаем:

 

1 "

т

 

1

jV

V

i(x, Ю= — У In ----------------

 

Jy

R

k=1 k

N f

(Л -1 )! (N-

R ) \

 

R - l

J

 

 

N-R 1

(5.4.21)

 

(R-

& <N~R) * 3 k

 

6=1

 

С помощью перегруппировки слагаемых при двойном сумми­ ровании можно показать, что

 

 

1

 

N

N

1

 

 

 

N

J

 

-

 

 

2 ( w - i ) 2

т

= ( N - D 2 т ;

 

N

 

$±х

 

1 k

 

 

йй

k

1

N

 

 

 

R ~ 1 1

1 N

 

N— R 1

~ 2

1

( я - 1) 2 т

— 2 ( N - R ) 2

k

N

 

 

k

JV ^

 

 

 

N — l

1

 

,V-1

N— 1

N~'

1

1

(A/—1)(A/ —2)_

:

2

T

 

 

__i. у

 

k

4

 

(V

 

k~s

2

ftt i

 

 

.5=1

О

 

 

 

 

 

i r

2 In (Л^— 1)!

 

N - 1

 

 

 

 

 

 

 

2

ln ^;

 

 

 

 

 

N

 

 

 

 

k=l

 

 

2 j i n ( « - i ) i - i . 2 1 п ( ^ - л ) ! = 1

2 k In ( N - k ) =

N

/V

 

 

 

л

 

 

 

= 7г

2 (

^

- fe) lnfe-

 

 

 

Л/

fe=i

 

 

 

 

 

Окончательно получаем:

 

 

 

 

 

 

I(X,

/лг- i

 

+

Л/— 1

2

л'-1

\

R)= m N - ^ l n k

- ^

2

k In * 1(5.4.22)

 

 

 

 

 

N

i f

) X

Дальнейшее упрощение (5.4.22) представляется невозмож­ ным, поэтому рассмотрим асимптотику полученных рядов. С помощью формулы суммирования Эйлера-Маклорена (см. де Брёйн [1]) можно получить, что при N->oo

у

N*

N 2

N

1

^ k l n k =

— In IV - — -Ь— lniV = — 1пЛт+ 0(1) (5.4.23)

k—i

2

4

2

4

и

2 lnfe=iV ln(A /+l)-f-^ -ln^V -j-l)—(y v + l)-f

104

+ — 1п2« + о ( —V

(5.4.24)

2

\N )

 

Используя эти формулы, окончательно (с точностью до чле­ нов порядка 0 (InNIN)) имеем:

I (X, Я )= — In N -f — In —.

(5.4.25)

2

2 2тс

 

О качестве полученного приближения можно судить по таб­ лице, в которой приведены точные (правый столбец) и вы­ численные по формуле (5.4.25) значения 1(Х, /?) для различных N:

2

0,193

0,065

200

2,236

2,232

5

0,522

0,388

500

2,691

2,691

10

0,812

0,735

1000

3,036

3,038

20

1,124

1,082

2000

3,382

3,384

50

1,558

1,539

5000

3,840

3,842

100

1,895

1,896

10000

4,186

4,189

Из (5.4.25) следует, что количество информации в R оХ неограниченно возрастает с объемом выборки и что эта зависимость не только не связана с параметрами сдвига и мас­ штаба распределения, но и одинакова для всех непрерывных распределений.

Наличие и усиление с ростом N статистической связи между выборочным значением и его рангом является осно­ вой для заключения о том, что в принципе возможно построе­ ние статистических процедур, использующих только ранги и по своим качествам асимптотически приближающихся к про­ цедурам на выборочных значениях.

Однако эта статистическая связь носит характер необхо­

димого, но не

достаточного условия для такого

построения.

В самом деле,

переход

к рангам (при непосредственном упо­

рядочивании выборки)

исключает зависимость

от сдвига и

масштаба, и, если именно они являются информативными параметрами задачи, возможность ее решения ранговой про­ цедурой отпадает. Именно поэтому при желании использовать ранговую процедуру для решения некоторой задачи необхо­ димо прежде всего найти такой способ упорядочивания, при котором информативный параметр задачи (т е. параметр различия между конкурирующими гипотезами) влиял бы на распределение рангов. Собственно, такая ситуация объясня­ ется тем, что из наличия связей между величинами 0 и X и X я R еще не следует наличие связи между 0 и R. Лишь при специальном способе упорядочивания, т. е. при специальной организации последовательности пар связанных величин

105

(@, A')-»-(X, Z)->-(Z, R) первая и последняя величины ока­ зываются связанными в результате принятых мер.

Если такие меры приняты, то остается вопрос, как имен­ но использовать ранги, чтобы получить статистику, асимпто­

тически эквивалентную

заданной

статистике

5 (х ь

хн).

Ответ

на этот вопрос дает формула (3.5.9),

которая позво­

ляет

утверждать, что

искомая

статистика имеет

вид

«S(F~l (щ - j- ), •••, F~l ( jj—j- ))• (Отметим, что получение та­

кой ранговой статистики возможно лишь при знании функции

F{x)).

§ 5.5. С П О С О Б Ы О Б Р А Щ Е Н И Я С О С В Я З К А М И

В отличие от выборок непрерывных случайных величин, выборки дискретных величин могут содержать с в я з к и , т. е. совокупности совпадающих значений. В таком случае при упорядочивании возникает вопрос: как распределить ранги среди членов связки? Поскольку ряд статистических процедур использует только ранги, то от того, как именно обрабатыва­ ются связки, могут существенно зависеть свойства этих про­ цедур.

Непосредственное применение формулы (5.1.2) для вы­ числения ранга приводит к тому, что при наличии связки всем ее членам приписывается одинаковый и наибольший возможный ранг. Это может оказаться неудобным; и уж если примириться с одинаковостью рангов внутри связки, то из общих соображений более естественно потребовать, чтобы при сохранении разницы между рангами ближайших сосе­ дей связки, равной числу ее членов, самим членам связки присваивался ранг, средний между минимальным и макси­ мальным возможными. В связи с этим вместо (5.1.1) вве­ дем новую функцию сравнения

1, *>0,

C'(t) =

(5.5.1)

Т

’ *=0,

о, *<0,

с помощью которой ранги для значений, принадлежащих вы­ борке дискретной величины, будем вычислять по формуле:

 

R t = o +

i c '(x i ~ xk)-

(5-5.2)

 

*

*=-i

 

Для

одиночных значений

X (5.5.2) дает тот же результат,

что и

(5.1.2), а при наличии связок их членам присваивается

106

общий, средний ранг. Для отличия рангов, вычисляемых по формуле (5.5.2), от обычных введем название «мидрангов» (по аналогии с английским термином midrank). Мидранг можно еще интерпретировать как «среднее значение ранга для членов связки, если бы они оказались различимыми».

На практике часто удобнее работать не с мидрангами (5,5.2), а с их линейной функцией

- 2 ГR

^ - 1 = i

sign (xt- x k),

(5.5.3)

где

 

t > О,

 

 

1,

(5.5.4)

 

о,

t = О,

 

— 1, f< 0 .

 

Достоинством lF-рангов (5.5.3) является то, что они не при­ нимают дробных значений внутри связок и что их сумма равна нулю.

До сих пор мы рассматривали регулярные способы обра­ ботки связок, при которых всем членам связки присваивается один и тот же ранг. Можно ли, сохранив равноправность чле­ нов внутри связки, присвоить им все же различные ранги? Такую возможность предоставляет хорошо известный даже из житейской практики способ «распределения по жребию». Говоря точнее, пусть хп = х12 = х 1г — ...— xir — члены неко­

торой связки г одинаковых значений х . Произведем некото­ рый случайный эксперимент с г! возможными и равноверо­ ятными исходами. Установим взаимно однозначное соответ­ ствие между исходами этого эксперимента и всевозможны­ ми упорядочиваниями г объектов. Будем присваивать ранги членам связки в том порядке, который предписывается ис­ ходом эксперимента. При этом равноправность членов связки соблюдается в форме равновероятности всевозможных упо­ рядочиваний.

Следует особо подчеркнуть, что случайное присвоение ран­ гов внутри связки сохраняет статистические свойства ран­ гового вектора при инвариантности распределения к переста­ новкам в одновыборочных значениях и при одинаковости распределений в многовыборочных. В самом деле, в указан­ ных случаях реализации ранговых векторов оказываются попрежнему равновероятными, как это было для непрерывного случая (см. § 5.2). Поэтому для этих гипотез статистические ранговые процедуры, синтезированные для непрерывных рас­ пределений, можно применять к дискретным выборкам — при условии случайного упорядочивания внутри связок. Это за­ мечание приобретает особую важность в связи с тем, что

107

при практических измерениях непрерывных величин всегда

приходится

иметь дело с

дискретными

значениями — просто

в силу ограниченной точности приборов.

Леман

[2]

доказал

Для случая

двувыборочных

задач

следующую

теорему. Пусть

хи

х2,

 

XNx',

XN^ I ,

х .\\-,2

, ....

XN^ N» — независимы;

пусть

все

xt

(i— 1,

2,

...,

Ni) имеют

одинаковые

функции

распределения

F(x),

а

все

XN^ J

( /=

= Е 2, ..., Л/2) — функции

G(x). Е с л и

А = . 4 {{Rn }) — с л у-

ч а й н о е

с о б ы т и е ,

от

о с у щ е с т в л е н и е

 

к о т о р о г о

з а в и с и т

т о л ь к о

 

р а н г о в о г о

вектор - а

а-х

к о м п о н е н т

с м е ш а н н о й

с т а т и с т и к и ,

 

 

и е с л и

р а н г и в с в я з к а х п р и с в а и в а ю т с я с л у ч а й н ы м

о б р а з о м ,

то

д л я

л ю б ы х р а з р ы в н ы х

F (х) и

G(x)

с у щ е с т в у ю т с о о т в е т с т в у ю щ и е

н е п р е р ы в ­

н ы е

F* и

G*, т а к и е ,

что

 

 

 

 

 

 

Рр*о* (A)= P FO {А),

 

(5.5.5)

и f* =

G*, е с л и

и т о л ь к о

е с л и F=G.

таких

функций

Приведем

один из способов

построения

F* и G*, которые обеспечивают соблюдение равенства (5.5.5). Пусть F и/или G имеют разрывы на счетном множестве то­ чек аи а2, ... Построим сначала пару функций Fu G; следую­ щим путем. Разрежем графики F и G в точке ах и раздвинем их части на расстояние 6/2 друг от друга. Внутри образовав­ шегося просвета проведем прямые, соединяющие концы раз­ двинутых графиков; получившиеся в результате этих мани­ пуляций функции обозначим через Fi и Gb соответственно. Следующий такой разрез проведем в точке, соответствующей теперь разрыву, ранее находящемуся в точке а2. Раздвинем полученные половинки на расстояние 6/221; внутри нового ин­ тервала снова проведем прямые; получившиеся функции обо­ значим через F2 и G2. Циклически повторяя операции «раз­

рез по a.k— раздвижение на 6/2 к — соединение прямыми», мы получим последовательность пар функций (F\, Gj), (F2, G2),

..., (Fk, Gk), ... Эта последовательность пар функций имеет три интересных особенности. Во-первых, подмена k-ro раз­ рыва любой из функций F или G равномерным в интервале 6/2* распределением эквивалентно тому, что ранги в k-ft связ­ ке приписываются случайным образом с одинаковой вероят­ ностью. Во-вторых, при указанном способе построения Fk и Gk распределение рангового вектора остается неизменным на каждом шаге. В-третьих, последовательности Fk и Gft даже при бесконечном числе разрывов сходятся к некоторым не­ прерывным F* и G* соответственно в силу сходимости сум­ мы 22~*. Тем самым мы доказали первую часть теоремы до равенства (5.5.5) включительно. Заключительное утвержде-

108

ние является очевидным для описанной выше процедуры по­ строения F* и G*.

Легко видеть, что обобщение теоремы Лемана на случай одновыборочных и многовыборочных задач можно провести непосредственно.

Известны и другие способы обращения со связками. Пе­ речислим основные из этих методов (учитывая, что способы: а) использование мидрангов и б) рандомизация рангов внут­ ри связки — уже были изложены).

в) Взять из каждой связки только по одному наблюде­ нию и соответственно уменьшить объем выборки. (Заметим, что потери в мощности при этом в ряде случаев могут быть меньшими, чем при методах б) и г) Хемельрик [1], Паттер [1]).

г) Приписать половине членов связки наименьший воз­ можный ранг, другой половине — наибольший. (Разновид­ ность этого способа предписывает, например, при знаковом тесте половину нулей в связке считать положительными, а другую половину — отрицательными.

д) Оценить границы вероятности ошибки первого рода. Идея этого метода состоит в том, чтобы сначала обработать связки таким способом, который должен дать наибольшую вероятность отвержения нулевой гипотезы, а затем так, что­ бы отвержение было наименее вероятным (выбор конкрет­ ных способов обработки связок определяется прежде всего типом тестовой статистики). Затем следует оценить вероят­ ности ам и а Б ошибок первого рода при этих способах, пред­ полагая, что верна нулевая гипотеза. При любой другой об­

работке связок вероятность ошибок

а (Г)

находится, очевид­

но, между

ними: а м ^ а (Г ) ^ а в . Далее

ам

и ав сравнива­

ются с требуемым уровнем значимости ссо.

Если обе они

окажутся

больше

(или меньше) а 0, гипотеза

Н0 отвергается

(принимается);

при а м < а о < а в

данный

способ не дает

решения

задачи. Если условия

эксперимента позволяют,

следует увеличивать объем выборки, пока, решение не будет достигнуто.

Каждый из указанных выше способов обращения со связ­ ками обладает определенными достоинствами и недостатка­ ми; однако последний способ представляется наиболее при­ емлемым с точки зрения полного использования всех налич­ ных наблюдений.

109

§ 5.6. О СВОЙСТВАХ РАНГОВ КОМПОНЕНТ ДВУМЕРНОЙ ВЫБОРКИ

В § 5.3 было показано наличие статистической связи между выборочным значением x t и его рангом Rt. Один из способов конкретного использования этой связи состоит в том, чтобы в определенных процедурах вместо самих выбо­ рочных значений использовать их ранги. Известным приме­ ром такой замены является использование коэффициента корреляции между рангами R п К двух величин X и Y вмес­ то коэффициента корреляции между самими X и Y (так на­ зываемый ранговый коэффициент Спирмэна). Правда, иногда

(см., например, Нетер [1]) высказывается мнение, будто аналогия между этими коэффи­

циентами чисто

внешняя;

од­

нако, учитывая

связь

между

X и R,

Y и К

(§ 5.4),

такое

мнение можно оспаривать.

Интересно

было бы

под­

вергнуть

более

детальному

рассмотрению

вопрос о

связях

между

многомерными

выбо­

рочными

значениями

и

соот­

ветствующими

 

многомерными

совокупностями рангов. Наибо­ лее полно эти связи могут быть описаны с помощью соответствующих функций распре­

деления. Однако получение этих функций наталкивается на ряд затруднений. Например, Кумару [1] удалось даже в дву­ мерном случае выразить эти распределения лишь в виде рекуррентных соотношений.

Тем не менее, можно предложить вывод искомых рас­ пределений для двумерного случая, дающий результат не в рекуррентной форме, а в явном виде. Выберем на плоскости XOY некоторую точку (х, у) (см. рис. 5.6.1). Прямые, парал­ лельные осям координат, рассекают плоскость XOY на че­ тыре квадранта, пронумерованные на рисунке по часовой стрелке. Вероятность Pk того, что некоторая выборочная па­

ра значений (хр yt)

окажется в k-u

квадранте, равна соот­

ветственно

 

 

Pi = F(x, у),

 

 

Pt =F (x ) —F(x, у),

 

p4= F ( y ) F (х,

у),

 

p3= l —F(x)—F(y)+F(x, у).

(5.6.1)

но

 

 

Пусть теперь разбиение на квадранты произведено через

выборочную

точку (X(R), Х(ю), которой соответствует пара R

и К рангов,

присвоенных данным выборочным значениям

при упрядочивании по каждой координате в отдельности. При этом между числами т и т2, т3 и т< выборочных точек

в каждом из квадрантов выполняются соотношения

 

m i+m 2+ m 3+ m 4 = //— 1,

 

тх+ т 2

— R— 1,

(5.6.2)

т\

-\-т4— К — 1.

 

Для заданного размещения выборочных точек по квадран­ там вероятность осуществления равна

 

(N-1)1

т1 птз

 

 

тх\ т2\ тъ1/га4! р Т

р2\

 

 

а так как в общем случае при фиксированных R и К система

- (5.6.2)

оставляет возможность

некоторого изменения чи­

сел rtii,

т2, т3 и т 4, то условную вероятность осуществления

пары (R, К) при заданных (х^ у ,)

 

можно записать

как

P [ R ,

*>!(■*„ у,)] = 2

( N - 1)!

 

 

р Т р Т рТ р? .

(5.6.3)

т^\ т2\ /7г3! т

4!

 

м

 

 

Остается указать конкретно множество М, по которому сле­ дует вести суммирование. Это легко сделать, учитывая, что три неизвестных в системе (5.6.2) могут быть выражены че­ рез четвертое (например, т{) и что все числа тк неотрица­ тельны. Имея, следовательно, соотношения

m2—R—1—mj^O,

 

т^~К —1—т ^ О ,

(5.6.4)

tn 3= (iV-j-1) — (i'C-j-jR) -j-nii ^ 0 ,

 

получаем, что суммирование ведется по таким

тх<=М, что

min(NК, N - R ) ^ m 1^ [ ( K + R ) — (N + l ) ] -

. C [ ( K + R ) - ( N + 1 ) ] ,

(5.6.5)

где C(t) = 1 при t^s 1 и С (0==0 при г'СО.

 

Окончательно имеем

 

Р

[(#> К)\(х ь У*)] =

 

 

 

(iV-l)t

 

X

шЦч тх\ ( Я - 1 - m j)!

[(iV-f l) ~ ( K + i? ) + « i] !

( К - 1

- т х)\

ХРГ-Р2

 

\—Tnt

(5.6.6)

р Т

■Pi

 

Учитывая, что безусловные

распределения

f (x{R), у(К)) и

P(R, К) известны и равны соответственно

 

 

Ш

f { X( R) , У т )

— P ( X (R)> У( К) ) ,

( 5 .6 .7 )

P(R, K) =

д, 2 .,

 

\ ч,

V/

 

 

легко получить совместное распределение f[(/?, K),(X(R), У(ю)] и условное Р[ (x{R), у (К)) / (R, К)], имея, таким образом, пол­ ное описание статистической связи между двумерными вы­ борочными значениями и парами их частных рангов.

ГЛАВА VI

ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ

КАК НЕПАРАМЕТРИЧЕСКИЕ ФАКТЫ

§ 6.1. ВВЕДЕНИЕ

Как уже неоднократно подчеркивалось, любое свойство выборки или функций от выборки (статистик), не завися­ щее от вида распределения, которому выборка подчинена, может быть использовано для построения непараметрических процедур. В главах III—V наше внимание было сосредото­

чено на поисках непараметрических свойств в ыб о р к и . Однако исторически гораздо раньше, по существу, с самого

начала развития теории вероятностей

и статистики, были

открыты непараметрические свойства

некоторых с т а т и с ­

тик, таких, как относительные частоты и суммы выбороч­ ных значений. Правда, эти непараметрические свойства но­ сят асимптотический характер, т. е. проявляются лишь при N-yоо; однако практиков вполне удовлетворяет то, что при конечных N можно действовать так, как будто асимптотиче­ ское свойство уже имеет место, а погрешности или вероят­ ности ошибок, связанные с таким подходом, можно оценить количественно. Очевидно, качество полученных таким обра­ зом процедур будет тем выше, чем больше N; понятно поэ­ тому, что для достижения заданного показателя качества необходим «достаточно большой» объем выборки.

Асимптотические свойства статистик распадаются на два класса: 1) сходимость статистик к некоторым постоянным пределам; 2) сходимость распределений статистик к некото­

рым известным распределениям.

Свойства первого класса

получили название з а к о н о в б о л ь ш и х

чис е л, свойства

второго класса — п р е д е л ь н ы х

т е о р е м .

Непараметрич-

112