Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Уч. пособие по ММСИ.doc
Скачиваний:
46
Добавлен:
11.12.2018
Размер:
2.12 Mб
Скачать

Тема 13. Анализ номинальных и порядковых переменных

1. Анализ номинальных переменных.

2. Анализ порядковых переменных.

1. Анализ номинальных переменных

Таблицы и графики позволяют получить определенные выводы о тех или иных свойствах генеральной совокупности в целом. Однако они не дают знания о том, как связаны между собой различные факторы, и не позволяют подтвердить или опровергнуть выдвинутые рабочие гипотезы о таких связях.

Знание о связях дает аналитическое исследование. Здесь выясняется, как разные подгруппы выборки отвечают на одни и те же вопросы. В конечном счете, анализ связей между ответами подгрупп выборки должен позволить установить каузальные модели, о которых мы говорили в теме 2.

Здесь мы рассмотрим пока особенности изменений какой-то одной переменной вне связи с изменениями других переменных. Речь пойдет о том, как находить главное и существенное в изменениях той или иной переменной.

В теме 4 мы говорили о том, что существуют три уровня измерения переменной: номинальный, порядковый и интервальный. Начнем с номинального уровня.

Обратимся снова к результатам исследования отношения граждан к местным органам здравоохранения, чтобы проанализировать распределение ответов на вопрос «Из каких источников Вы получаете главным образом информацию о состоянии медицинского обслуживания населения?». Пусть у нас получилось следующее распределение ответов (табл. 13.1).

Таблица 13.1

Распределение ответов на вопрос об источниках информации о состоянии

медицинского обслуживания населения?1 (первый вариант)

Варианты ответа

Абс. числа

Телевидение, A

1012

Радио, B

258

Газеты, C

745

Слухи, разговоры в общественном месте, D

246

Личный опыт, E

145

Беседы с друзьями, знакомыми, в кругу семьи, F

449

Всего

2855

Согласно таблице номинальная переменная «Источник информации о состоянии медицинского обслуживания» принимает шесть значений, которые мы обозначили для удобства латинскими буквами A, B, C, D, E, F.

Чтобы получить возможность зрительно сравнивать значения переменной, изобразим информацию таблицы в виде гистограммы (рис. 13.1).

Рис. 13.1.

Мы видим, что большинство респондентов указывает в качестве источника информации телевидение. Этот источник будет модой при данной переменной.

Определение: мода – наиболее часто встречающееся значение номинальной переменной. Обозначается как Мо.

Вторым по частоте значением переменной «Источник» являются газеты. Если мы примем и это значение в качестве моды, то получим бимодальное распределение.

Примем в качестве моды только телевидение. Теперь нужно измерить степень ее репрезентативности, или типичности. Другими словами, мы выясняем, какую долю всех случаев вбирает в себя мода.

Эту долю можно определить через отношение моды к общему числу случаев: Мо/N.

В нашем примере мода равна 1012, общее число случаев равно 2855. Итак, отношение будет равным 0,35 (1012/2855). Можно сказать, что мода забирает на себя 35% всех случаев.

Но обычно репрезентативность моды определяют через дисперсию, или коэффициент вариации. Дисперсия – от лат. dispersio, рассеяние – мера отклонения случайных значений от среднего значения.

Формула определения коэффициента вариации:

Коэффициент вариации в нашем примере получается равным 0,65 (1 – 1012/2855 = 1 – 0,35). Много это или мало? Коэффициент вариации показывает долю, оставшуюся на признаки, не входящие в модальную категорию. Поэтому чем меньше коэффициент вариации, тем репрезентативней мода.

Представим крайний случай, что мода вобрала в себя все варианты ответов, т. е. оказалась равной общему числу признаков. В таком случае коэффициент вариации был бы равен нулю.

Возьмем ситуацию, когда мода минимальна. Ясно, что она не может быть равной нулю, так как по определению должна быть равной наибольшему числу случаев. Она будет минимальной в одном случае – когда все выбранные варианты ответов количественно равны. Например, в нашем случае при общем числе признаков 2855 минимальная мода равнялась бы 476 (2855/6). В таком случае коэффициент вариации был бы максимальным – 0,83 (1 – 476/2855).

Итак, при возрастании моды коэффициент вариации уменьшается, при уменьшении моды коэффициент вариации возрастает. Поэтому повторим: чем меньше коэффициент вариации, тем мода более полно отражает общую картину.

Отметим особо, если все значения переменной равны или примерно равны, то мы имеем весьма малоинформативное распределение. Действительно, такое равенство значений могло бы получиться, если бы респонденты отвечали, не задумываясь, наугад. Можно провести аналогию с равным выпадением орлов и решек при подбрасывании монеты, когда отсутствуют причины для перевеса в ту или иную сторону.

Таким образом, чем более близко по величине каждое значение переменной друг к другу, тем менее информативным является распределение значений переменной и соответственно меньше значимых выводов можно сделать на основе таких данных. Вообще было бы подозрительным равенство данных по всем вариантам ответа. Это означало бы, что вопрос оказался безразличным респондентам, и они отвечали на него просто из вежливости.

Посмотрим, что еще можно получить из табл. 13.1. Суммируем первые три значения переменной «Источник информации о состоянии медицинского обслуживания». Тогда мы получим просто СМИ в качестве источника информации: телевидение + радио + газеты. Суммируем остальные три значения в качестве обобщенного источника информации «Личное общение»: слухи и разговоры, личный опыт, беседы с друзьями и знакомыми. Построим таблицу, в которой номинальная переменная «Источник информации о состоянии медицинского обслуживания населения» пробегает лишь по этим двум укрупненным значениям (табл. 13.2).

Модой в данном случае окажутся СМИ. Она заберет на себя 70,6% (2015/2855) ответов. Соответственно коэффициент вариации будет равен 0,294 (1 – 2015/2855). Если мы сравним коэффициенты вариации табл. 13.1 и 13.2, т. е. 0,65 и 0,295, то можем сделать вывод, что укрупненная мода «СМИ» более чем в два раза репрезентативнее моды «Телевидение».

А вот если бы опрос проводился в начале, или даже в середине прошлого века, модой было бы скорее всего личное общение.

Таблица 13.2

Распределение ответов на вопрос об источниках информации о состоянии

медицинского обслуживания населения? (второй вариант)

Варианты ответа

Абс. числа

СМИ

2015

Личное общение

840

Всего

2855