Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы Подшибякина часть 2.rtf
Скачиваний:
119
Добавлен:
13.02.2015
Размер:
2.09 Mб
Скачать

44. Изучение взаимосвязи между несколькими переменными

Основные положения совпадают с требованиями к билету №43,увеличится лишь размерность таблицы и надо после раскрытия основных положений, сходных с билетом 43, -перечислить основные методики анализа связи между несколькими переменными- а именно- метод хи квадрат(билет 45), регрессионный анализ, корреляционный анализ, кластерный, анализ, сетевой анализ, факторный анализ.

45.Статистика хи-квадрат (х2)

Понятие и расчет у2

Статистический анализ полученных с помощью массового опроса данных, как и анализ наблюдений изучаемого явления или статисти­ческих данных, включает несколько уровней сложности и возможно­стей получения дополнительной (скрытой) информации. Только слабо подготовленные специалисты, не стремящиеся предоставить заказчику максимально полные и объективные сведения об изучаемом явлении, ограничиваются описанием в отчете сведений об одномерных или дву­мерных сгруппированных данных в процентах. Современные методы обработки данных в статистических пакетах позволяют с помощью простых манипуляций получить дополнительные сведения об устойчи­вости, непротиворечивости и т.п. взглядов респондентов. Процентные распределения ответов респондентов всего лишь фиксируют «картин­ку» на момент опроса, в то время как более сложные методы обработки информации позволяют ответить на ключевые вопросы, которые не могут не волновать заказчика: насколько обнаруженные данные яв­ляются устойчивыми и закономерными, насколько применима к ним процедура экстраполяции во времени? Обязательной процедурой с точки зрения современных стандар­тов аналитики являются оценка плотности связи между переменны­ми, осуществляемая с помощью корреляционного анализа, и предше­ствующая ей процедура оценки критерия хи-квадрата по Пирсону. Эту процедуру считают необязательной в трех следующих случаях (хотя ее выполнить можно): при оценке плотности связи переменных в таблице размерностью 2x2, при проведении процедуры ранговой корреляции для двух переменных, построенных на основе порядковых шкал, и при оценке степени синхронности процессов в двух динамических рядах. Условия проведения расчета статистики хи-квадрат, обеспечиваю­щие ее универсальность, очень мягкие, нежесткие.

  1. Расчет статистики можно выполнять на переменных, измерен­ных с помощью как абсолютных метрических, интервальных, порядковых, так и номинальных шкал.

  2. Переменные могут быть как дискретными, так и непрерывными.

  3. Предварительного исследования характера распределения изуча­

емых признаков не требуется.

Критерий статистики хи-квадрат является непараметрическим, так как он не требует проверки нормальности распределения, которому подчинялась бы выборка.

В социальных и политических исследованиях результат наблюде­ний, подтверждающий справедливость выдвинутой гипотезы, крайне редко выступает основанием для ее принятия как истинной, поскольку он может также сочетаться и с рядом других объяснительных гипотез. Например, успешность политической карьеры национального лидера может объясняться его личностными характеристиками (яркость лич­ности, волевые характеристики, интеллект, способность к эффектив­ной коммуникации и т.д.). Но это отнюдь не означает, что успешность политической карьеры не может быть объяснена и другими причина­ми, например принадлежностью к определенному клану или месту по­лучения образования.

Тест хи-квадрат используется для двухвходовых таблиц сопряжен­ности (комбинированные таблицы, связывающие два признака). Затем формулируют нулевую и альтернативную гипо­тезы. Нулевая гипотеза (Hf) — утверждение, отрицающее зависимость между радами переменных. Доказательство ее ложности свидетель­ствует о том, что связь между переменными существует. Для нашего случая — «электоральная активность мужчин и женщин совпадает». Альтернативная гипотеза (HJ — гипотеза о наличии связи между при­знаками. Для нашего случая — «уровень электоральной активности мужчин и женщин различается». Затем строят дополнительную таблицу ожидаемой (те­оретической) частоты. Для заполнения ее ячеек произведение соответ­ствующих маргинальных частот (значения соответствующих маргиналь­ных — итоговых — строкй и столбца) делят на общее число респондентов:

Далее полученное значение необходимо сравнить с табличным критическим значением. Для этого нам необхо­димо определить так называемые степени свободы (df).

Другая необходимая величина — уровень статистической значи­мости. Он показывает, насколько вероятна связь, зафиксированная между двумя признаками в выборке, т.е. этот показатель оценивает ве­роятность того, что при отборе других наблюдений из генеральной со­вокупности мы получим аналогичный результат.

Условия корректного проведения расчета х2

Надежность полученных результатов проведения теста у} определя­ется рядом условий.

Во-первых, нежелательно, чтобы у каждой из переменных, вклю­ченных в анализ, число градаций превышало четыре (если число зна­чений у переменных больше четырех, значительно снижаются возмож­ности для интерпретации и надежность вывода).

Во-вторых, выборка (число наблюдений) не должна быть слишком мала. Это означает, что наполнение ячеек в анализируемой таблице не должно быть меньше 10, согласно В. А. Ядову — менее пяти, т.е. он ука­зывает на более мягкие требования, так как в противном случае нельзя будет анализировать стандартизованные остатки (в таблице реальных наблюдений вообще не должно быть пустых ячеек). Кроме того, вы­борка признается «маленькой», если для большого числа ячеек табли­цы сопряженности ожидаемые частоты < 5. Возможный вариант реше­ния проблемы — предварительное объединение некоторых ячеек. Если это не удается сделать, то можно использовать и нескорректированный критерий, но трактовать результат с известной степенью осторожности.

Но выборка не должна быть и слишком большой. Методические эксперименты показывают, что статистика хи-квадрат очень чувстви­тельна к количеству наблюдений, так как расчетное у2 растет с той же скоростью, что и объем выборки. Например, при удвоении объема вы­борки во столько же раз возрастет и значение у}. В случае если выборка большая (массовый опрос, выборка около 1000 респондентов), для по­лучения более точного результата допустимо рассчитывать этот показа­тель в относительных частотах (в процентах).

В-третьих, отклонения ожидаемых частот в таблице вероятностно­го распределения ответов от реальных наблюдений в исходной анали­зируемой таблице менее чем на пять единиц (< 5) должны встречаться не более чем в 20% полей таблицы.

В-четвертых, суммы по строкам и столбцам всегда должны быть больше нуля, величина уровня значимости для расчета критерия хи- квадрат не должна превышать 0,05 (а в идеале — < 0,001).

Однако на этом процедуры, связанные со статистикой хи-квадрат, не заканчиваются. Мы можем посмотреть на так называемые стандар­тизованные остатки и оценить скрытые закономерности, даже если значение хи-квадрат не позволяет нам отбросить нулевую гипотезу.