Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Вятский государственный гуманитарный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Уч. пособие по ММСИ.doc

Скачиваний:

Добавлен:

11.12.2018

Размер:

2.12 Mб

Скачать

☆

<<< < Предыдущая 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 4231 32 33 34 35 36 37 38 39 40 41 42 > Следующая >>>

2. Анализ порядковых переменных

При порядковом уровне измерения мы имеем больше информации, так как позиции упорядочены, т. е. проранжированы. Поэтому, с одной стороны, можно при желании, конечно, использовать понятие моды. Рассмотрим данные табл. 13.3. Очевидно, что модой здесь будет строка «Скорее положительно, чем отрицательно», так как ей соответствует наибольшее количество случаев – 430. Но, с другой стороны, упорядоченность позиций позволяет использовать более сложные понятия, такие, как медиана и дисперсия, обозначим их Ме и δ.

Медиана − значение (строка), выражающее среднюю тенденцию для порядковых переменных. Чтобы пояснить, как определяется медиана, обратимся к табл. 13.3.

Таблица 13.3

Как Вы сегодня оцениваете состояние медицинского обслуживания?	Абс. числа	Кумуляты
1. Положительно	129	129
2. Скорее положительно, чем отрицательно	430	559
3. Скорее отрицательно, чем положительно	390	949
4. Отрицательно	193	1142

Здесь мы имеем упорядоченное распределение значений переменной: от «Положительно» через промежуточные значения до «Отрицательно».

Чтобы узнать медиану, нужно в каждую строку, двигаясь сверху (или, наоборот, снизу) вписывать сумму числовых значений предыдущих строк плюс числовое значение данной строки. Такая сумма с нарастанием называется кумулятой (накоплением). На табл. 13.3 кумуляты (они показаны в третьем столбце) определяются через движение от верхней строки вниз. Нам нужно определить строку, кумулята которой включает 50%. Это строка и будет медианой.

В нашем примере 50% выборки равны 571, так как вся выборка равна 1142. Число 571 входит в кумуляту третьей строки (949), которая, следовательно, является медианой. Итак, медианой в данном случае является значение «Скорее отрицательно, чем положительно»^¹.

Теперь по аналогии с номинальным распределением мы должны выяснить, насколько медиана репрезентативна, в данном случае – насколько близко вокруг медианы группируются остальные значения переменной. Для этого нужно определить дисперсию распределения.

Мы делим всю выборку на шаги, их называют квантили (от слова «квант» – порция). Величина квантиля, вообще говоря, зависит от нашего выбора. Эти шаги-квантили могут быть равны 20% выборки (квинтельный шаг), или 25% (квартильный шаг), или 10% (децильный шаг), или 1% (персентильный шаг).

Общее правило таково: дисперсия равна разности между номером строки предпоследнего шага и номером строки первого шага. Запишем правило в виде формулы:

δ = q_n_-1 – q₁.

Здесь q – номер строки.

Возьмем в качестве шага 20% выборки. Вся выборка в таком случае исчерпывается в пять шагов. Первый шаг равен 228,4 (20% от 1142). Это число входит во вторую строку. Предпоследний, четвертый шаг равен 913,6 (80% от 1142), ему соответствует третья строка. Определяем дисперсию: 3 – 2 = 1.

Малая величина дисперсии говорит о том, что значения переменной достаточно близко группируются вокруг медианы и, следовательно, медиана репрезентативна.

Предположим теперь несколько иное распределение значений порядковой переменной (табл. 13.4).

Таблица 13.4

Как Вы сегодня оцениваете состояние медицинского обслуживания?	Абс. числа	Кумуляты
1. Положительно	430	430
2. 2. Скорее положительно, чем отрицательно	129	559
3. 3. Скорее отрицательно, чем положительно	193	752
4. Отрицательно	390	1142

Здесь медиане будет соответствовать снова третья строка, то есть значение переменной «Скорее отрицательно, чем положительно».

Но первому шагу (228,4) будет соответствовать уже первая строка, а предпоследнему шагу (913,6) будет соответствовать четвертая строка. Дисперсия теперь равна 3 (4 – 1).

Большая дисперсия означает, что медиана не очень репрезентативна.

И действительно, мы видим, что основные числовые показатели (430 и 390) теперь не группируются вокруг медианы, они рассредоточены в крайних значениях переменной: первой и последней строках.

Попробуем выяснить, как должно выглядеть распределение переменной при нулевой дисперсии. В этом случае и первый и предпоследний шаги должны содержаться в одной строке.

Пусть это будет вторая строка. Это означает, что числовое значение первой строки должно быть меньше 228,4, а кумулята второй строки должна быть больше или равна 913,6. Строим соответствующую табл. 13.5.

Таблица 13.5

Как Вы сегодня оцениваете состояние медицинского обслуживания?	Абс. числа	Кумуляты
1. Положительно	210	210
2. Скорее положительно, чем отрицательно	900	1110
3. Скорее отрицательно, чем положительно	20	1130
4. Отрицательно	12	1142

Мы видим, что при нулевой дисперсии вторая строка, которая одновременно соответствует медиане, сосредоточивает в себе подавляющее большинство значений переменной – около 80%.

Посмотрим теперь, как изменятся дисперсии, если мы выберем шаг в 25% выборки. Теперь должно быть всего четыре шага. Вернемся к табл. 13.3. Здесь первый шаг равен 285,5 (25% от 1142). Он снова оказывается во второй строке. Предпоследний, третий шаг равен 856,5 (75% от 1142). Он тоже оказывается в третьей строке. Дисперсия тоже равна 1.

В табл. 13.4 первый шаг в 25% оказывается в первой строке, а предпоследний шаг – в четвертой строке. Дисперсия равна 3 (4 – 1). Получается, что в табл. 13.4 медиана тоже менее репрезентативна, чем в табл. 13.3.

Выясним, чему будут равны дисперсии при децильном шаге, то есть 10% от выборки. Здесь вся выборка исчерпывается в 10 шагов.

В табл. 13.3 первый шаг будет равен 114,2 (10% от 1142), ему соответствует первая строка, предпоследний шаг будет равен 1027,8 (90% от 1142), ему соответствует четвертая строка. Дисперсия будет равна 3 (4 – 1).

В табл. 13.4 первому шагу будет соответствовать первая строка, предпоследнему шагу будет соответствовать четвертая строка. Дисперсия будет снова равна 3 (4 – 1).

Итак, можно считать, что в общем и целом медиана табл. 13.3 репрезентативней медианы табл. 13.4, хотя обе медианы находятся в одной и той же строке.

Рассмотрим случай, когда значений переменной больше 4. Допустим, мы заинтересовались распределением работников различного уровня квалификации в случайной выборке из 100 любителей подледного лова. Здесь мы имеем пять значений порядковой переменной (см. табл. 13.6).

Начинаем с определения медианы. Исследуя столбец с кумулятами, обнаруживаем, что 50% выборки, так сказать, экватор, находится между второй и третьей строками. Действительно, двигаясь сверху, мы набираем 50% выборки во второй строке, а двигаясь снизу (четвертый столбец), получаем 50% выборки в третьей строке. Это означает, что медианой будут одновременно значения переменной «Рабочий средней квалификации» и «Рабочий высокой квалификации».

Таблица 13.6

Любители подледного лова	Абс. числа	Кумуляты сверху	Кумуляты снизу
1. Рабочие низкой квалификации	30	30	100
2. Рабочие средней квалификации	20	50	70
3. Рабочие высокой квалификации	15	65	50
4. Инженеры среднего звена	15	80	35
5. Инженеры высшего звена	20	100	20

Определяем дисперсию при шаге 20%. Первый шаг соответствует числу 20, которое входит в числовое значение первой строки. Предпоследний шаг соответствует числу 80, которое входит в кумуляту четвертой строки. Дисперсия равна 3 (4 – 1).

Получается, что наиболее типичной фигурой среди любителей подледного лова является рабочий средней или высокой квалификации, причем типичность этой фигуры не так уж велика ввиду большой дисперсии.

Определим дисперсию при шаге 10%. Первый шаг соответствует числу 10, которое входит в числовой значение первой строки. Предпоследний шаг соответствует числу 90, которое входит в кумуляту пятой строки. Дисперсия равна 4 (5 – 1).

Следует заметить, что при больших дисперсиях, так как медиана является мало репрезентативной, распределение лучше рассматривать по аналогии с номинальным уровнем.

Например, в последнем случае можно принять в качестве моды значение переменной «Рабочий низкой квалификации» с коэффициентом вариации 0,7 (1 – 30/100).

Или в случае табл. 13.4, где тоже большая дисперсия, можно определить в качестве моды значение переменной «Положительно» с коэффициентом вариации 0,62 (1 – 430/1142) или рассматривать распределение как бимодальное (моды – первая и последняя строки).

<<< < Предыдущая 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 4231 32 33 34 35 36 37 38 39 40 41 42 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.11.2018200.7 Кб3Управленческие Решения учебно-методический комп....doc
#
17.08.20195.93 Mб11Урок по русскому языку для 5 класса.doc
#
01.05.201542.5 Кб91Урок русского языка в 6.doc
#
31.08.201933.44 Кб15УСНО, ЕНВД.docx
#
17.12.201867.58 Кб16Устройства внешней памяти.doc
#
11.12.20182.12 Mб46Уч. пособие по ММСИ.doc
#
22.11.2019198.73 Кб11учеб.docx
#
01.05.20152.6 Mб352учебник ПЕДАГОГИКА (В.А.Сластенин и др).doc
#
01.05.2015772.31 Кб151Учебник по ИСЭПП (Лавриненко, Путилова).pdf
#
27.08.20191.1 Mб32учебник по муниципальному хоз.doc
#
30.04.201556.83 Кб30Учебники.doc