Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
160
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

увеличение на единицу процента грамотных x(4) (при неизменных зна-

чениях среднего числа детей в семье, ВВП на душу населения и рождаемости) сопровождается увеличением средней продолжительности жизни мужчины в странах из первого кластера на 0,64 года (в целом по 52 странам увеличение процента грамотных на единицу, как было показано при выполнении п. 6 работы 5, не сопровождается изменением средней продолжительности жизни мужчины);

увеличение на единицу рождаемости x(4) (при неизменном значениях

среднего числа детей в семье, ВВП на душу населения и рождаемости) сопровождается увеличением средней продолжительности жизни мужчины в странах из первого кластера на 1,85 года (в целом по 52 странам увеличение рождаемости на единицу, как было показано при выполнении п. 6 работы 5, не сопровождается изменением средней продолжительности жизни мужчины).

3.8. Д и с к р и м и н а н т н ы й а н а л и з

1. Предположим, что известно, что Австралия, Австрия, Беларусь, Бразилия, Великобритания, Германия, Италия, Канада, Китай, Мексика, Польша, Россия, США и Украина входят в первую группу, а Вьетнам, Замбия, Индия, Филиппины, Эфиопия и ЮАР входят во вторую группу.

Требуется определить, в какую из этих двух групп входит каждая из стран: Аргентина, Бангладеш, Бельгия, Буркина-Фасо, Гаити, Гондурас, Гонконг, Египет, Ирландия, Испания, Колумбия, Коста-Рика, Куба, Малайзия, Марокко, Нидерданды, Новая Зеландия, Норвегия, ОАЭ, Португалия, Саудовская Аравия, Северная Корея, Сингапур, Таиланд, Турция, Финляндия, Франция, Чили, Швейцария, Швеция, Южная Корея и Япония (считая, что каждая из этих стран входит в одну из двух групп и притом только в одну). Предположим, что каждая группа подчиняется пятимерному нормальному закону распределения с одинаковой для обеих групп ковариационной матрицей.

Откроем в окне ввода данных PASW Statistics матрицу (52 × 5) значений

признаков (сохраненную при выполнении п. 2 работы 5). Добавим переменную «Group», значения которой установим равными единице для стран

первой группы, двойке — для стран второй группы, а для остальных стран оставим пустыми.

Обратимся (с помощью выбора пункта меню «Анализ | Классификация | Дискриминантный анализ…») к программе «Дискриминантный анализ»

(рис. 3.8.1).

Укажем в качестве независимых переменных («Независимые») признаки X(1), X(2), X(3), X(4), X(5), в качестве группирующей переменной («Группировать по») — переменную «Group», зададим (в окне, появляющемся после нажатия кнопки «Задать диапазон…» — рис. 3.8.2) диапазон значений группирующей

переменной от 1 до 2.

В окне задания параметров работы программы, появляющемся после нажатия кнопки «Классификация…» (рис. 3.8.3), укажем, что априорные вероятности следует вычислить по размерам групп, а в качестве ковариационной

91

матрицы следует использовать внутригрупповую; установим флажки «Вывести: Поточечные результаты» и «Вывести: Итоговая таблица».

Рис. 3.8.1. Окно ввода данных в программу «Дискриминантный анализ»

Рис. 3.8.2. Окно «Дискриминантный анализ: Задание групп»

Рис. 3.8.3. Окно «Дискриминантный анализ: Классификация»

92

В результате работы программы (рис. 3.8.4) получена дискриминантная функция

 

(1)

0,101X

(2)

+ 0,947X

(3)

+ 0,472X

(4)

+ 0,536X

(5)

.

D = 1,033X

 

 

 

 

 

Ее среднее значение в первой группе составило –1,407, а во второй группе 3,284.

2.В таблице «Поточечные статистики» для каждого наблюдения

указана группа, заданная в обучающей выборке, («Фактическая группа»),

предсказанная группа, вероятности P{D > d | G = g} и P{G = g | D = d} , квадрат расстояния Махалонобиса до центра группы от данного наблюдения, значения дискриминантной функции («Дискриминантные баллы»). Так, например,

вероятность отнесения Аргентины к первой группе равна 0,99948, а вероятность отнесения ее ко второй группе равна 1 – 0,99978 = 0,00032, поэтому эту страну имеет смысл отнести к первой группе. Объединенные Арабские Эмираты отнести к одной из двух групп сложнее: вероятность отнесения ОАЭ к первой группе равна 0,52, а вероятность отнесения ее ко второй группе равна 1 – 0,52 = 0,48 — эти вероятности близки к 1/ 2.

В результате оказалось, что изначально все двадцать стран, вошедших в обучающую выборку, были правильно разбиты по группам, а из стран, которые необходимо было классифицировать, к первой группе отнесены Аргентина, Бельгия, Египет, Ирландия, Испания, Колумбия, Коста-Рика, Куба, Малайзия, Марокко, Нидерданды, Новая Зеландия, Норвегия, Португалия, Тайланд, Турция, Финляндия, Франция, Чили, Швейцария, Швеция и Япония, а ко второй группе — Бангладеш, Буркина-Фасо, Гаити, Гондурас, Гонконг, ОАЭ, Саудовская Аравия, Северная Корея, Сингапур и Южная Корея.

3.Все страны в обучающей выборке были верно отнесены к группам.

4.Рассчитанный уровень значимости различий между средними значениями дискриминантной функции в двух группах [который содержится в результатах работы программы (рис. 3.8.4) в столбце «Знч.» таблицы «Лямбда Уилкса»] составил 0,0000345 < 0,05. Это дает основания считать

указанные различия существенными.

5.Гипотезы о равенстве математических ожиданий признаков X(1), X(2), X(3), X(4), X(5) в двух группах несложно проверить с помощью программы «Сред-

ние». В рассматриваемой задаче гипотезы о равенстве математических ожиданий каждого из пяти признаков X(1), X(2), X(3), X(4), X(5) в двух группах (при аль-

тернативных гипотезах о различии математических ожиданий признаков) отвергаются на 5%-ном уровне значимости. (Студент должен приложить к работе результаты компьютерных вычислений по проверке этих гипотез.)

Первую группу стран (в которую вошли Австралия, Австрия, Аргентина, Беларусь, Бельгия, Бразилия, Великобритания, Германия, Египет, Ирландия, Испания, Италия, Канада, Китай, Колумбия, КостаРика, Куба, Малайзия, Марокко, Мексика, Нидерданды, Новая Зеландия, Норвегия, Польша, Португалия, Россия, США, Тайланд, Турция, Украина, Финляндия, Франция, Чили, Швейцария, Швеция и Япония) естественно интерпретировать как группу более развитых стран, а вторую группу (в которую вошли Бангладеш, Буркина-Фасо, Вьетнам, Гаити, Гондурас, Гонконг, Замбия, Индия, ОАЭ, Саудовская Аравия, Северная Корея, Сингапур, Филиппины, Эфиопия, ЮАР и Южная Корея) — как группу менее развитых стран.

93

Дискриминантный анализ

Сводка результатов обработки наблюдений

Невзвешенные наблюдения

N

Процент

Валидные

20

38,5

Исключенные Пропущенные или лежащие вне диапазона коды группирующей переменной

32

61,5

По крайней мере одна пропущенная дискриминантная переменная

0

0,0

Оба групповых кода пропущены или лежат вне диапазона,

0

0,0

и отсутствует по крайней мере одна дискриминантная переменная.

 

 

Итого искл.

32

61,5

Всего набл.

52

100,0

Групповые статистики

 

 

 

Group

 

Среднее

Стд.отклонение

Кол-во валидных (искл.целиком)

 

 

 

 

Невзвешенные

 

Взвешенные

 

1,00

 

x(1)

 

 

1,934

 

 

 

 

0,486

 

 

 

14

 

 

14,00

 

 

 

 

x(2)

 

11137,071

 

8003,155

 

 

 

14

 

 

14,00

 

 

 

 

x(3)

 

 

88,136

 

81,763

 

 

 

14

 

 

14,00

 

 

 

 

x(4)

 

 

94,857

 

 

 

 

7,263

 

 

 

14

 

 

14,00

 

 

 

 

x(5)

 

 

15,214

 

 

 

 

4,839

 

 

 

14

 

 

14,00

 

2,00

 

x(1)

 

 

4,837

 

 

 

 

1,557

 

 

 

6

 

 

6,00

 

 

 

 

x(2)

 

 

865,833

 

1141,035

 

 

 

6

 

 

6,00

 

 

 

 

x(3)

 

 

135,833

 

117,733

 

 

 

6

 

 

6,00

 

 

 

 

x(4)

 

 

67,167

 

25,143

 

 

 

6

 

 

6,00

 

 

 

 

x(5)

 

 

34,667

 

 

 

 

8,779

 

 

 

6

 

 

6,00

 

Итого

x(1)

 

 

2,805

 

 

 

 

1,632

 

 

 

20

 

 

20,00

 

 

 

 

x(2)

 

8055,700

 

8215,067

 

 

 

20

 

 

20,00

 

 

 

 

x(3)

 

 

102,445

 

93,406

 

 

 

20

 

 

20,00

 

 

 

 

x(4)

 

 

86,550

 

19,286

 

 

 

20

 

 

20,00

 

 

 

 

x(5)

 

 

21,050

 

10,952

 

 

 

20

 

 

20,00

 

 

 

 

 

 

Критерий равенства групповых средних

 

 

 

 

 

 

 

 

Лямбда Уилкса

 

 

F

 

ст.св. 1

 

ст.св. 2

 

 

Знч.

 

 

 

 

 

x(1)

 

 

0,300

 

 

41,936

 

 

 

1

 

18

 

0,000004

 

 

 

 

 

x(2)

 

 

0,654

 

 

9,504

 

 

 

1

 

18

 

0,006415

 

 

 

 

 

x(3)

 

 

0,942

 

 

1,101

 

 

 

1

 

18

 

0,307926

 

 

 

 

 

x(4)

 

 

0,544

 

 

15,070

 

 

 

1

 

18

 

0,001092

 

 

 

 

 

x(5)

 

 

0,303

 

 

41,478

 

 

 

1

 

18

 

0,000005

 

Анализ 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Канонические дискриминантные функции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Собственные значения

 

 

 

 

 

 

 

 

 

Функция

Собственное

 

% объясненной

 

Кумулятивный

Каноническая

 

 

 

 

 

 

значение

 

дисперсии

 

%

 

 

 

 

корреляция

 

 

 

 

1

 

 

5,135a

 

 

100,0

 

 

 

 

100,0

 

 

 

0,915

 

 

a. В анализе использовались первые 1 канонические дискриминантные функции.

 

 

 

 

 

 

 

 

 

 

 

Лямбда Уилкса

 

 

 

 

 

 

 

 

 

Проверка функции(й)

 

Лямбда Уилкса

Хи-квадрат

 

ст.св.

 

Знч.

 

 

 

 

 

1

 

 

 

 

 

 

0,163

 

 

28,117

 

 

 

5

0,00003

 

 

Нормированные коэффициенты канонической дискриминантной функции

 

 

 

 

 

 

 

 

 

 

 

 

 

Функция

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(1)

 

 

 

1,033

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(2)

 

 

 

–0,101

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(3)

 

 

 

0,947

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(4)

 

 

 

0,472

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(5)

 

 

 

0,536

 

 

 

 

 

 

 

 

 

Рис. 3.8.4. Результаты работы

94

Структурная матрица

 

Функция

 

1

x(1)

0,674

x(5)

0,670

x(4)

–0,404

x(2)

–0,321

x(3)

0,109

Объединенные внутригрупповые корреляции между дискриминантными переменными и нормированными каноническими дискриминантными функциями.

Переменные упорядочены по абсолютной величине корреляций внутри функции.

Функции в центроидах групп

Group

Функция

1

 

1,00

–1,407

2,00

3,284

Ненормированные канонические дискриминантные функции вычислены в центроидах групп.

Классификационные статистики

 

 

 

 

 

 

 

 

 

 

 

 

 

Сводка классификации

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Обработано

 

 

 

 

 

 

 

 

 

 

 

 

 

 

52

 

 

 

 

 

 

 

 

Исключенны Пропущенные или лежащие вне диапазона коды групп

 

 

0

 

 

 

 

 

 

 

 

е

 

По крайней мере одна дискриминантная переменная

 

 

0

 

 

 

 

 

 

 

 

Используется в выводе

 

 

 

 

 

 

 

 

 

 

 

 

52

 

 

 

 

 

 

 

 

 

 

 

 

 

Априорные вероятности для групп

 

 

 

 

 

 

 

 

 

 

Group

 

 

 

 

 

 

 

 

 

 

Наблюдения, использованные в анализе

 

 

 

 

 

 

 

 

Априорные

 

 

 

 

Невзвешенные

Взвешенные

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,00

 

 

 

 

 

 

 

 

 

,700

 

 

 

 

14

 

 

 

 

14,000

 

 

 

2,00

 

 

 

 

 

 

 

 

 

,300

 

 

 

 

6

 

 

 

 

6,000

 

 

 

Итого

 

 

 

 

 

 

 

1,000

 

 

 

 

20

 

 

 

 

20,000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поточечные статистики

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Наивероятнейшая группа

 

 

Втораявероятнейшая группа

 

Дискриминантные

 

 

 

 

 

 

 

 

 

 

 

 

 

 

баллы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Номер

 

Фактиче-

 

 

 

P(D>d|G=g)

 

 

Квадрат

 

 

 

 

Квадрат

 

 

 

наблюдения

ская группа

Предсказан-

 

 

 

P(G=g|D=d)

расстояния

 

Группа

P(G=g|D=d)

расстояния

 

Функция1

 

 

 

 

 

 

 

 

ная группа

 

 

 

Махалонобиса

 

Махалонобиса

 

 

 

 

 

 

 

 

 

 

 

p

ст.св

 

 

до центра

 

 

 

 

до центра

 

 

 

1

 

1

 

 

1

 

0,397

1

 

0,99999987

0,7172,0000000000

0,000000134

30,668

 

 

–2,254

2

 

1

 

 

1

 

0,497

1

 

0,99999971

0,4622,0000000000

0,000000294

28,848

 

 

–2,087

3

несгруппиров.

 

1

 

0,463

1

 

0,99977674

0,5392,0000000000

0,000223257

15,658

 

 

–0,673

4

несгруппиров.

 

2

 

0,000

1

 

1,00000000

31,2971,0000000000

0,000000000

105,790

8,878

5

 

1

 

 

1

 

0,662

1

 

0,99999908

0,1912,0000000000

0,000000918

26,299

 

 

–1,844

6

несгруппиров.

 

1

 

0,052

1

 

0,93991090

3,7632,0000000000

0,060089104

7,569

0,533

7

 

1

 

 

1

 

0,740

1

 

0,99996606

0,1112,0000000000

0,000033942

18,998

 

 

–1,075

8

несгруппиров.

 

2

 

0,402

1

 

0,99999924

0,7021,0000000000

0,000000763

30,567

4,121

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

32

несгруппиров.

 

1

 

0,012

1

 

0,51909876

6,2982,0000000000

0,481276988

4,759

1,102

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Результаты классификацииa

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Group

 

 

 

 

Предсказанная принадлежность к группе

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,00

 

 

 

2,00

 

 

Итого

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Частота1,00

 

 

 

 

 

 

 

 

 

 

14

 

 

0

 

14

 

 

 

 

 

 

2,00

 

 

 

 

 

 

 

 

 

 

0

 

 

6

 

6

 

 

 

 

 

 

 

Несгруппированные наблюдения

 

 

 

23

 

 

9

 

32

 

 

 

 

 

%

1,00

 

 

 

 

 

 

 

 

 

 

100,0

 

 

0,0

100,0

 

 

 

 

 

 

2,00

 

 

 

 

 

 

 

 

 

 

0,0

 

 

100,0

100,0

 

 

 

 

 

 

 

Несгруппированные наблюдения

 

 

 

71,9

 

 

28,1

100,0

 

 

a. 100,0% исходных сгруппированных наблюдений классифицировано правильно.

программы «Discriminant Analysis»

95

6. Результатом регрессионного анализа (с исключением) признака Y на признаки x(1), x(2), x(3), x(4), x(5) для первой группы стран стало уравнение

ˆyf = 57,11+ 0,00031x(2) + 0,1113x(4) ,

а для второй группы —

ˆyf = 85,52 0,801x(5) .

Эти уравнения и все их коэффициенты значимы, оценки нормированных коэффициентов детерминации равны соответственно 0,52 и 0,70. (Студент должен приложить к работе распечатки результатов расчетов, полученных с помощью компьютерных программ регрессионного анализа.)

Анализ этих уравнений позволяет сделать следующие выводы:

увеличение на единицу среднего числа детей в семье x(1) (при неизменных

значениях ВВП на душу населения, процента грамотных и рождаемости) не сопровождается изменением средней продолжительности жизни мужчины как в странах первой группы, так и в странах второй группы (в целом по 52 странам увеличение среднего числа детей в семье на единицу, как было показано в п. 6 работы 5, сопровождается уменьшением средней продолжительности жизни мужчины на 3,22 года);

увеличение на единицу ВВП на душу населения x(2) (при неизменных

значениях среднего числа детей в семье, процента грамотных и рождаемости) в странах первой группы ведет к увеличению средней продолжительности жизни мужчины на 0,00031 года, а в странах второй группы не ведет к изменению средней продолжительности жизни мужчины (в целом по 52 странам увеличение ВВП на душу населения на единицу, как было показано в п. 6 работы 5, сопровождается увеличением средней продолжительности жизни мужчины на 0,000375 года);

увеличение на единицу плотности населения x(3) в странах из первого

кластера не сопровождается изменением средней продолжительности жизни мужчины и в странах первой группы, и в странах второй группы (как и в целом по 52 странам — см. п. 6 работы 5);

увеличение на единицу процента грамотных x(4) (при неизменных зна-

чениях среднего числа детей в семье, ВВП на душу населения и рождаемости) в странах первой группы сопровождается увеличением средней продолжительности жизни мужчины на 0,1113 года, а в странах второй группы не сопровождается изменением средней продолжительности жизни мужчины (в целом по 52 странам увеличение процента грамотных на единицу, как было показано в п. 6 работы 5, не сопровождается изменением средней продолжительности жизни мужчины);

увеличение на единицу рождаемости x(5) (при неизменном значениях

среднего числа детей в семье, ВВП на душу населения и рождаемости) в странах первой группы не сопровождается изменением средней продолжительности жизни мужчины, а в странах второй группы сопровождается уменьшением средней продолжительности жизни мужчины в странах из первого кластера на 0,801 года (в целом по 52 странам увеличение рождаемости на единицу, как было показано в работе 5, не сопровождается изменением средней продолжительности жизни мужчины).

96

Таким образом, в первой группе стран основными факторами, определяющими среднюю продолжительность жизни мужчины (Y), являются ВВП на душу населения (x(2)) и процент грамотных (x(4)), тогда как среднее число детей в семье (x(1)), плотность населения (x(3)) и рождаемость (x(5)) в

странах этой группы не влияют на среднюю продолжительности жизни мужчины. Во второй группе стран основным фактором, определяющим среднюю продолжительность жизни мужчины (Y), является рождаемость (x(5)), а среднее число детей в семье (x(1)), ВВП на душу населения (x(2)), плотность населения (x(3)) и процент грамотных (x(4)) в странах этой группы не

влияют на среднюю продолжительности жизни мужчины.

3.9. П р и м е р н е п а р а м е т р и ч е с к о г о а н а л и з а

од н о р о д н о с т и в ы б о р о к

Втабл. 3.9.1 представлены данные об общей стоимости (в тыс. ден. ед.) туров, проданных за последний месяц сотрудниками туристического агентства — восемью женщинами и девятью мужчинами.

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 3.9.1

Женщины

11

12

16

13

18

15

13

14

 

n1

= 8

Мужчины

7

10

14

15

12

16

14

12

12

n2

= 9

На основании визуального анализа этих данных создается впечатление, что женщинам лучше удается продавать туры, чем мужчинам.

Проверим это предположение на 5%-ном уровне значимости.

Для проверки гипотезы H0: FX(1) (x) = FX(2) (x), утверждающей, что обе

н е з а в и с и м ы е выборки взяты из генеральных совокупностей, имеющих одинаковые распределения [при альтернативе H1: FX(1) (x) ¹ FX(2) (x) или

(1)

(x) > F

(2) (x) или

′′

(1)

(x) < F

(2) (x)], можно использовать критерий

H1: F

H1: F

X

 

X

 

X

 

X

 

Вилкоксона — Манна — Уитни, который заключается в следующем. Элементы обеих выборок объединяют и располагают в порядке неубы-

вания (т. е. в вариационный ряд). Каждому элементу объединенной выборки ставится в соответствие его номер в получившемся ряду — ранг (в случае связанных рангов, когда несколько элементов объединенной выборки совпадают, им присваивается одинаковый ранг, равный среднему арифметическому их порядковых номеров в общем ряду). Статистика Wn1; n2 , равная

меньшему из двух чисел: суммы рангов элементов первой выборки в объединенном вариационном ряду и суммы рангов элементов второй выборки, при справедливости H0 имеет распределение Вилкоксона с n1 и n1 степеня-

ми свободы (таблицы критических точек распределения Вилкоксона приводятся, например, в работе [5, С. 419, табл. 6.8]).

При n1 > 50, n2 > 50 можно воспользоваться нормальным приближени-

ем: статистика

97

 

 

 

W -

n (n1 + n2 +1)

 

 

 

 

Z =

 

 

 

n1; n2

 

 

 

2

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

n n

 

+ n2

+1-

 

tk (tk2 -1)

 

 

 

 

 

 

k=1

 

 

1 2

 

 

 

 

 

n1

 

 

 

 

 

12

(n1

+ n2)(n1 + n2

-1)

 

 

 

 

 

где n — объем той выборки, сумма рангов которой в объединенном вариационном ряду меньше, распределена при n1 > 50, n2 > 50 приблизительно по стандартному нормальному закону (здесь m — число групп связанных рангов, принадлежащих разным выборкам, tk — объем k-й группы).

Гипотеза H0: FX(1) (x) = FX(2) (x) (т. е. X(1) = X(2)) при альтернативной гипотезе H1: FX(1) (x) ¹ FX(2) (x) (т. е. X(1) ¹ X(2)) отвергается на уровне значимости a, если наблюдаемое значение статистики Вилкоксона Wn1; n2 не попадает в интервал

(n (n1 + n2 +1) - wα/2; n1; n2 ; wα/2; n1; n2 ),

где wα/2; n1; n2 — верхняя критическая граница критерия Вилкоксона с соот-

ветствующим уровнем значимости и числом степеней свободы.

Гипотеза H0: FX(1) (x) = FX(2) (x) (т. е. X(1) = X(2)) при альтернативной гипотезе

(x) < FX(2) (x) (т. е. X

(1)

 

(2)

H1: FX(1)

 

> X

) отвергается на уровне значимости a, если

Wn1; n2 wα; n1; n2 .

Гипотеза H0: FX(1) (x) = FX(2) (x) (т. е. X(1) = X(2)) при альтернативной гипотезе

′′

 

 

(1)

 

(2)

) отвергается на уровне значимости a, если

H1: FX(1)

(x) > FX(2) (x) (т. е. X

< X

 

 

 

 

W n (n + n +1) - wα

.

 

 

 

 

n1; n2

 

1

2

; n1; n2

Будем проверять гипотезу H0: F

(1) (x) = F (2) (x) ( X(1) = X(2) ) при альтерна-

 

 

 

(1) (x) < F (2) (x) (т. е. X(1)

X

X

 

тиве H : F

> X(2)).

 

 

 

1

X

X

 

 

 

 

 

 

 

 

 

 

 

 

В табл. 3.9.2 составим объединенный вариационный ряд, в котором элементы первой выборки выделены жирным.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

3.9.2

 

Элементы

7

10

11

12

12

 

12

12

13

13

14

14

14

15

15

16

16

18

 

 

Ранги

1

2

3

5,5

5,5

 

5,5

5,5

8,5

8,5

11

11

11

13,5

13,5

15,5

15,5

17

 

 

Считаем последовательно. Сумма рангов элементов первой выборки в

объединенном

вариационном

ряду

равна

3 + 5,5 + 8,5 + 8,5 + 11 + 13,5 +

+ 15,5 + 17 = 82,5, для второй выборки эта сумма составляет 1 + 2 + 5,5 + + 5,5 + 5,5 + 11 + 11 + 13,5 + 15,5 = 70,5; значение статистики Вилкоксона W8;9 равно наименьшему из этих чисел:

min{82,5; 70,5} = 70,5.

По таблице критических точек распределения Вилкоксона [3, С. 419, табл. 6.8] находим w0,05;8;9 = 90 , и поскольку значение статистики W8;9, равное

98

70,5, оказалось меньше критической точки w0,05;8;9 = 90 , нет оснований отвергнуть гипотезу H0 при альтернативе H1.

Таким образом, различие в объемах продаж, совершаемых женщинами и мужчинами, не существенно.

Значение статистики Z оказалось равным

 

 

 

70,5 -

9(8 + 9 +1)

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

8×9

 

8 + 9 +1

-

 

tk (tk2 -1)

 

 

 

k=1

 

 

 

 

 

 

 

 

12

 

 

+ 9)(8 + 9

-1)

 

 

 

 

(8

 

и его модуль меньше односторонней критической

= -1,02,

точки z1/2−α = z0,50,05 = z0,45 =

= 1,64 — даже при малом числе наблюдений нормальное приближение приводит к верному результату.

Теперь воспользуемся пакетом SPSS для проверки данной гипотезы. Введем в рабочий лист SPSS значения двух переменных: общую стоимость проданных путевок («x») и пол («пол») — переменная «пол» равна единице

для женщин и двум для мужчин (рис. 3.9.1).

Обратимся (с помощью выбора пункта «Nonparametric Tests | 2 Independent Samples…» меню «Statistics») к программе «Two-Independent-Samples Tests» (рис. 3.9.2), выбрав для анализа переменную «x» («Test Variable List») и указав в качестве переменной группирования («Grouping Variable») переменную «пол», а в качестве типа критерия — непараметрический критерий сравнения средних для независимых выборок («Test Type: Mann — Whitney U» — в SPSS он называется критерием Манна — Уитни).

 

x

пол

1

11,00

1

2

12,00

1

3

16,00

1

4

13,00

1

5

18,00

1

6

15,00

1

7

13,00

1

8

14,00

1

9

7,00

2

10

10,00

2

11

14,00

2

12

15,00

2

13

12,00

2

14

16,00

2

15

14,00

2

16

12,00

2

17

12,00

2

Рис. 3.9.1. Числовые данные

для программы «Two-Independent-Samples Tests»

99

Рис. 3.9.2. Окно ввода данных программы «Two-Independent-Samples Tests»

Результаты работы программы (рис. 3.9.3) содержат (в частности) ранговые суммы 82,5 и 70,5 («Sum of Ranks»), наблюдаемое значение статистики Вилкоксона W8;9, равное 70,5 («Wilcoxon W»), и наблюдаемое значение статистики Z, равное –1,02 («Z»), а также рассчитанный (двусторонний!) уровень

значимости критерия Вилкоксона — Манна — Уитни [его точное значение равно 0,321 («Exact Sig. [2*(1-tailed Sig.)]»), а значение, полученное с помощью нормального приближения, равно 0,307 («Asymp. Sig. (2-tailed)»)].

Чтобы получить рассчитанный односторонний уровень значимости, разделим пополам соответствующий рассчитанный двусторонний уровень значимости. В задаче он равен 0,161, и это не дает оснований отвергнуть гипотезу H0: FX(1) (x) = FX(2) (x) при альтернативе H1: FX(1) (x) < FX(2) (x).

NPar Tests

Mann Whitney Test

Ranks

 

пол

N

 

Mean Rank

Sum of Ranks

X

1

8

 

10,31

82,50

 

2

9

 

7,83

70,50

 

Total

17

 

 

 

 

 

 

 

 

Test Statisticsa

 

 

 

 

 

 

 

 

 

X

 

 

Mann — Whitney U

 

25,5

 

 

Wilcoxon W

 

70,5

 

 

Z

 

 

 

 

 

 

Asymp. Sig. (2-tailed)

 

0,307

 

 

Exact Sig. [2*(1-tailed

 

0,321

 

a Grouping Variable: ПОЛ

Рис. 3.9.3. Результаты работы программы «Two-Independent-Samples Tests»

3.10. П р и м е р о ц е н к и с в я з и м е ж д у д в у м я п о р я д к о в ы м и с л у ч а й н ы м и в е л и ч и н а м и

Студенческая группа из 12 человек ранжировалась по их способностям к практической деятельности.

100