- •1.Таблица одномерных частот, возможности ее использования для анализа данных.
- •2. Таблица сопряженности, ее назначение и возможности для анализа данных
- •3. Возможности использования мер центральной тенденции для анализа данных
- •4. Основные виды абсолютных и относительных частот в таблице сопряженности
- •5. Основные способы и правила преобразования переменных
- •6. Проверка нулевой статистической гипотезы на основе критерия Хи- квадрат
- •7. Понятие и роль дисперсии в анализе данных
- •8. Корреляционная матрица, ее назначение и возможности для анализа данных
- •9. Методы сравнения средних значений, их преимущества и недостатки
- •10. Коэффициенты симметричной и направленной связи между переменными
- •11. Назначение, основные этапы и требования к применению факторного анализа
- •12. Назначение содержание и возможности кластерного анализа
- •13. Назначение, содержание и возможности регрессионного анализа
- •14. Назначение, содержание и возможности дискриминантного анализа
Вопросы по методам анализа данных (из курса по анализу данных в SPSS)(20%)
1.Таблица одномерных частот, возможности ее использования для анализа данных.
Любой анализ информации, находящейся в окне просмотра данных, начинается с получения одномерных распределений. В социологии их еще часто называют «линейками» или «одномерками». Такой вид анализа позволяет увидеть, как распределились ответы на заданные вопросы, дать описательное представление отдельных переменных в абсолютных (числах) и относительных частотах (процентах), мерах центральной тенденции (среднее, медианное, модальные значения) и мерах разброса (стандартное отклонение, дисперсия, размах).
( Анализ- описательные статистики-частоты)
В таблице можно посмотреть относительную частоту в процентах каждого ответа включая пропущенные значения, валидное процентное значение, кумулятивные (накопленные) процентные значения(сумма процентных частот валидных ответов).
Одномерное распределение может быть получено как для всей выборочной совокупности, так и для отдельной подвыборки, для этого:
Data (данные), Select Cases...(Выбрать случаи).
пункт If condition is satisfied (Если
выполняется условие) и
If...(Если).
В открывшемся окне Select Cases: If из списка
исходных переменных выбираем переменную (пол) ипереносим ее в редактор условий. Здесь записывается логическое выражение, по которому должны быть
отобраны случаи (d6=1).
Получение распределений по отдельным подвыборкам позволяет уже на первом этапе работы с эмпирическими данными решать задачи сравнительного анализа.
Меры центральной тенденции указывают на расположение среднего, или типичного значения признака, вокруг которого сгруппированы остальные наблюдения.
Средние значения дают некую обобщенную информацию о распределении.
Различные меры описывают разные характеристики распределения:
Медиана - среднее положение,
Мода- это такое значение в совокупности наблюдений, которое встречается чаще всего. Недостатки моды. В распределении могут быть две иболее моды (бимодальное и мультимодальное распределения). Когда частоты для всех наблюдаемых значений почти равны или близки лучше воздержаться от использования моды.
Медиана- обычно используется для ординальных переменных, т.е. таких переменных значения которых могут быть упорядочены от меньших к большим.
Медиана (Мd) - этозначение, которое делит упорядоченное множество данных пополам, так, что одна половина наблюдений оказывается меньше медианы, а другая больше. Иными словами медиана это 50-й процентиль распределения. Для того, чтобы найти медианное значение для маленького массива наблюдений, достаточно упорядочить наблюдения от меньших значений переменной к большим. На медиану не влияют величины «крайних» очень больших или малых значений.
Среднее (среднее арифметическое-Х) самая распространенная мера центральной тенденции. Процедура определения среднего: нужно просуммировать все значений наблюдений и разделить полученную сумму на число наблюдений. Среднее уязвимо для крайних значений.
Сравнение значений средних показателей для различных подвыборок - весьма распространенный метод анализа.
Самая грубая мера изменчивости - размах (диапазон) значений. Эта мера не учитывает индивидуальные отклонения значений, описывая лишь диапазон их изменчивости. Под размахом понимают разность между максимальным и минимальным наблюдаемым значением.
Важнейшая мера рассеяния - дисперсия (s2). Возведенные в квадрат отклонения от среднего и их суммирование, а затем деление на объем выборки.
Гистограмма
Частоты на гистограмме обозначены колонками, примыкающими друг к другу. Отображаются также стандартное отклонение, среднее значение и общее количество случаев (N). Кроме того показана кривая нормального распределения.