Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
111.doc
Скачиваний:
6
Добавлен:
26.09.2019
Размер:
205.31 Кб
Скачать

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«Белгородский государственный национальный исследовательский университет»

( Н И У « Б е л Г У » )

ФАКУЛЬТЕТ ПСИХОЛОГИИ

КАФЕДРА ВОЗРАСТНОЙ И СОЦИАЛЬНОЙ ПСИХОЛОГИИ

АНАЛИТИЧЕСКИЙ ОТЧЕТ

по учебной практике

______________________________

(название дисциплины)

Исполнитель:

студент дневного отделения

II курса группы 151002

Павлов Иван Олегович

(ФИО полностью)

Белгород, 2012

Содержание

1. Введение стр. 3

2. Теоретическая часть стр. 4

2.1 Дисперсионный анализ стр. 4

2.2 Регрессионный анализ стр. 7

2.3 Факторный анализ стр. 11

2.4 Кластерный анализ стр. 12

3. Практическая часть стр. 16

3.1 Решение задач

Теоретическая часть

Дисперсионный анализ

Общепринятое сокращенное обозначение дисперсионного анализа — ANOVA (от англоязычного ANalysis Of VAriance). В соответствии с принятой классификацией, ANOVA — это метод сравнения нескольких (более двух) выборок по признаку, измеренному в метрической шкале. Как и в случае срав­нения двух выборок при помощи критерия t-Стьюдента, ANOVA решает зада­чу сравнения средних значений, но не двух, а нескольких. Кроме того, метод допускает сравнение выборок более чем по одному основанию — когда деле­ние на выборки производится по нескольким номинативным переменным, каждая из которых имеет 2 и более градаций. Например, исследование влияния на продуктивность воспроизведения вербального матери­ала (У): а) интервала между 5 повторениями (X1— 3 градации: 1—0 мин, 2 — 3 мин, 3 — 10 мин) и б) трудность материала (Х2  2 градации: 1 — легкий, 2 — трудный).

Одномерный дисперсионный анализ с повторным измерением

Этот метод используется при исследовании разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Например, исследуем вопрос следующего характера: наблюдаются ли в течение четырёх моментов времени значимые изменения показаний теста на внимательность. При этом необходимо учесть влияние двух факторов: пола и возраста. В общем, в нашем распоряжении имеется три фактора: пол с двумя категориями, возраст с тремя категориями и время с четырьмя категориями. Это приводит к необходимости выполнения трёхфакторного дисперсионного анализа, в котором третий фактор (время) является фактором с повторным измерением

Для этого можно воспользоваться многомерный дисперсионный анализ (MANOVA). Вместо одномерного F критерия, используется многомерный F критерий (лямбда-критерий Уилкса), основанный на сравнении ковариационной матрицы ошибок и межгрупповой ковариационной матрицы. Если зависимые переменные коррелированы между собой, то эта корреляция должна учитываться при вычислении критерия значимости. Очевидно, если одно и то же измерение повторяется дважды, то ничего нового получить при этом нельзя. Если к имеющемуся измерению добавляется коррелированное с ним измерение, то получается некоторая новая информация, но при этом новая переменная содержит избыточную информацию, которая отражается в ковариации между переменными.

Многофакторный ANOVA

Данный дисперсионный анализ предназначен для изучения влияния нескольких независимых факторов (переменных) на зависимую переменную. Отличительной особенностью многофакторного ANOVA от однофакторного является возможность оценить не тольковлияние каждой независимой переменной в отдельности, но и взаимодействие факторов – зависимость влияния одних факторов от уровней других факторов.

Таким образом, в результате мы получаем влияние 1-ой независимой переменной, влияние 2-ой независимой переменной, …., взаимовлияние независимых переменных.

При использовании многофакторного анализа порой получаются достаточно интересные результаты, которые невозможно было бы получить с помощью предыдущего дисперсионногоанализа.

Ограничениями метода выступают однородность дисперсий и выборки не должны заметно различаться по численности.

Однофакторный дисперсионный анализ для несвязанных выборок. 

Назначение метода. 

Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака (зависимой переменной) под влиянием изменяющихся условий или градаций какого-либо фактора.

Влиянию каждой из градаций фактора подвержены разные выборки.

Должно быть не менее трех градаций фактора и не менее двух наблюдений в каждой градации.

Описание метода.

Расчеты начинаются с расстановки всех данных по столбцам, относящимся к каждому из факторов соответственно.

Следующим действием будет нахождение сумм значений по столбцам (то есть – градациям) и возведение их в квадрат.

Фактически метод состоит в сопоставлении каждой из полученных и возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте.

 

Однофакторный дисперсионный анализ для связанных выборок.

Назначение метода.

  Метод применяется в тех случаях, когда исследуется влияние разных условий действия фактора (градаций фактора) на одну и ту же выборку. (Одни и те же респонденты в разных условиях.)

Условий (градаций) должно быть не менее трех.

Индивидуальных значений по каждому условию должно быть не менее двух.

Описание метода.

  В этом случае различия могут быть вызваны не только влиянием фактора, но и индивидуальными различиями между испытуемыми. При анализе несвязанных выборок это обстоятельство не оказывало воздействия за счет того, что выборки были различны, и сводилось к случайным причинам различий, - здесь же индивидуальные различия между элементами выборки (респондентами) необходимо особо учитывать. (Индивидуальные различия могут оказаться более значимыми, чем изменение условий действия фактора.) Исходя из сказанного, в расчеты вводятся дополнительные компоненты – суммы квадратов сумм индивидуальных значений.

Однофакторный ANOVA

Этот вид дисперсионного анализа позволяет проверить гипотезу о существовании влияния изучаемого фактора на зависимую переменную.

Математическая модель однофакторного ANOVA предполагает выделение в общей изменчивости зависимой переменной двух ее составляющих: межгрупповая составляющая изменчивости обусловлена различием средних значений под влиянием фактора; внутригрупповая составляющая изменчивости обусловлена влиянием неучтенных причин.

Соотношение этих двух составляющих изменчивости и есть основной показатель, определяющий статистическую значимость влияния фактора.

При выявлении уровня ошибки выше или равно 5% (т.е. р≥0,05), подтверждается гипотеза о равенстве средних значений. А при уровне ошибки меньше 5% (т.е. р<0,05) подтверждается гипотеза о различие по крайней мере двух средних значений.

Ограничения метода:

1) дисперсии выборок должны быть однородны; для этого смотрят на

результаты критерия Ливена, направленный на выявление однородности дисперсий (т.е. если при проведении теста Ливена p≥0,05, значит Вы можете смело применять для своих данных дисперсионный анализ);

2) формально численность выборок не должно быть меньше двух

объектов.

Альтернатива – сравнение независимых выборок по критерию H-Краскела-Уоллеса.

Основным показателем для принятия решения является F-критерий Фишера и, конечно же, его уровень достоверности.

Многомерный ANOVA (MANOVA)

MANOVA применяется для изучения эффектов влияния факторов не на одну, а на несколько переменных (многомерную зависимую переменную). Таким образом, для каждого объекта имеются несколько зависимых переменных, которые подвергаются дисперсионному анализу.

Итак, MANOVA позволяет проверить не только гипотезы о влиянии факторов на каждую зависимую переменную в отдельности, но и гипотезу о влиянии факторов на всю совокупность зависимых переменных, как на одну многомерную переменную, или как я ее называю модель.

MANOVA может применяться как альтернатива ANOVA с повторными измерениями в случае, если не выполняется ее основное допущение о сферичности ковариационно-дисперсионнойматрицы. Однако следует учитывать, что MANOVA является менее мощной, но более сложнойпроцедурой, особенно для выборок небольшой численности.

Допущения у MANOVA такие же, как и у других видов ANOVA:

1) допущение о нормальном распределении зависимых переменных – не проверяется, так как

MANOVA также как и остальные виды ANOVA устойчив к отклонениям от нормального вида;

2) равенство ковариационно-дисперсионных матриц – как и для ANOVA с повторными измерениями используется М-тест Бокса (Box's M-Test).

3) дополнительно для одномерного этапа необходимо выполнение допущения об однородности дисперсий – проверяется с помощью критерия Ливена (Levene's Test).

4) также дополнительно необходимо выполнение допущения о коррелированности зависимых переменных – для этого применяется тест сферичности остатков ковариационной матрицы

Бартлета (Bartlett's Test of Sphericity).

Основными показателями MANOVA являются:

- многомерные критерии – след Пиллая, λ-Вилкса, след Хотеллинга и критерий Роя (или

наибольший корень Роя);

Регрессионный анализ – статистический метод исследования зависимости между зависимой переменной и одной или несколькими независимыми переменными.

Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные – критериальными.

Существую различные виды регрессионного анализа – одномерная и многомерная, линейная и нелинейная, параметрическая и непараметрическая.

Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейсяк любой шкале. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия.

Порядковую регрессию можно использовать, когда зависимые переменные относятся к порядковой шкале. И, конечно же, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

Простая линейная регрессия.

Простой регрессионный анализ предназначен для выявления взаимосвязи одной зависимой переменной и одной независимой переменной. Аналогом простой регрессии является однофакторный ANOVA при условии, что независимая переменная будет измерена в номинальной шкале.

Основные требования к простому регрессионному анализу:

- переменные должны быть измерены в шкале интервалов или отношений;

- предположительно нормальное распределение переменных;

- отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной; исходя из этого, следует избегать включения в анализ переменных, корреляции между которыми больше 0,8.

- число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

Основными показателями простого регрессионного анализа являются:

β-коэффициенты (Beta) – стандартизированные коэффициенты регрессии, знак которых соответствует знаку корреляции независимой и зависимой переменной;

B – коэффициенты регрессии;

R – коэффициент множественной корреляции;

– коэффициент множественной детерминации (чем он выше, тем больше процентов дисперсии зависимой переменной объясняет данная модель);

F – критерий Фишера и его достоверность;

В простом линейном регрессионном анализе квадратный корень из коэффициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэффициент детерминации.

Множественная регрессия состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.

Во множественной линейной регрессии предпосылки регрессионного анализа и его проведение полностью совпадают с простой линейной регрессией. Особенностью множественной регрессии является корреляция независимых переменных.

Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной.

Требования - отсутствие линейных взаимосвязей между переменными, переменные должны быть измерены в шкале интервалов или отношений и предположительно должны иметь нормальное распределение. Показатели - стандартизированные коэффициенты регрессии, коэффициенты регрессии, коэффициент множественной корреляции, коэффициент множественной детерминации, критерий Фишера и его достоверность.

Существует 3 вида методов множественной регрессии. Стандартный метод – учитывает все зависимые переменные. Пошаговые методы (прямой и обратный) позволяют подобрать наиболее оптимальную комбинацию независимых переменных

Основными целями множественного линейного регрессионного анализа являются:

1) Определение того, в какой мере зависимая переменная связана с совокупностью независимых переменных и, какова статистическая значимость этой взаимосвязи.

Рассматриваемые показатели – коэффициент множественной корреляции и его статистическая значимость по критерию F (Фишера). www.statwork.net

2) Определение существенности вклада каждой независимой переменной в оценку зависимой переменной, отсев несущественных для предсказания независимых переменных.

Рассматриваемые показатели – регрессионные β-коэффициенты и их статистическая значимость по t-критерию Стьюдента.

3) Анализ точности предсказания и вероятных ошибок оценки зависимой переменной.

Рассматриваемые показатели – коэффициент множественной детерминации.

Факторный анализ

Факторный анализ (от лат. factor — действующий, производящий и греч. analysis — разложение, расчленение) — метод многомерной математической статистики (см. Статистические методы (в психологии), применяемый при исследовании статистически связанных признаков с целью выявления определенного числа скрытых от непосредственного наблюдения факторов. Созданный в начале века для нужд психологии (предпринимались попытки выделить основной фактор, определяющий интеллект, Ч. Спирмен), факторный анализ впоследствии получил большое распространение в экономике, медицине, социологии и других науках, располагающих огромным количеством переменных, из которых обычно необходимо выделить ведущие. С помощью факторного анализа не просто устанавливается связь изменения одной переменной с изменением другой переменной, а определяется мера этой связи и обнаруживаются основные факторы, лежащие в основе указанных изменений. Факторный анализ особенно продуктивен на начальных этапах научных исследований, когда необходимо выделить какие-либо предварительные закономерности в исследуемой области. Это позволяет последующий эксперимент сделать более совершенным по сравнению с экспериментом на переменных, выбранных произвольно или случайно. Как метод факторный анализ имеет определенные слабые стороны, в частности отсутствует однозначное математическое решение проблемы факторных нагрузок, то есть влияния отдельных факторов на изменения различных переменных.

Приложения математических результатов, полученных в рамках факторного анализа, не ограничивались психологической наукой. Задача факторного анализа состоит в замене набора параметров меньшим числом некоторых категорий (“факторов”), являющихся линейной комбинацией исходных параметров. Удовлетворительным решением служит такая система факторов, которая достаточно адекватно передает информацию, имеющуюся в наборе параметров. Таким образом, главная цель факторного анализа – сжатие информации, экономное описание.

Требования к организации факторного анализа.

В работе исследователя по конструированию психодиагностического теста можно выделить три основных этапа:

1) формирование “чернового” варианта теста;

2) выбор диагностической модели и определение ее параметров;

3) стандартизация и испытание построенной диагностической модели.

Под диагностической моделью понимается способ компоновки (преобразования) исходных диагностических признаков (вариантов ответов на задания теста) в диагностический показатель. Таких способов может быть бесконечное множество.

Для определения параметров диагностической модели используются различные методы эмпирико-статистического анализа данных. В частности, если во множество исходных признаков входят несколько взаимосвязанных признаков, то одну или сразу несколько диагностических моделей можно получить, используя методы факторного анализа.

Факторный анализ является сложной процедурой. Как правило, хорошее факторное решение (достаточно простое и содержательно интерпретируемое) удается получить по меньшей мере после нескольких циклов ее проведения – от отбора признаков до попытки интерпретации после вращения факторов. Для того чтобы прийти к нему, надо соблюдать немало требований. Назовем основные.

1) Переменные должны быть измерены, по крайней мере, на уровне шкалы интервалов (по классификации Стивенса). Многие переменные, такие как меры отношений и мнений в социологии, различные переменные при обработке результатов тестирования, не имеют точно определенной метрической основы. Тем не менее предполагается, что порядковым переменным можно давать числовые значения и включать в факторный анализ.

2) Не следует включать дихотомические переменные. Но если цель исследования состоит в нахождении кластерной структуры, использование факторного анализа к данным, содержащим дихотомические переменные, оправданно.

3) Отбирая переменные для факторного анализа, следует учесть, что на один искомый фактор должны приходиться не менее трех переменных.

Метод главных компонент. В данном методе поиск решения идет в направлении вычисления собственных векторов (факторов), а собственные значения характеризуют дисперсию (разброс) по факторам.

Метод главных факторов. Для определения числа факторов используются различные статистические критерии, при помощи которых проверяется гипотеза о незначительности матрицы корреляционных остатков.

Метод максимального правдоподобия (Д. Лоли), в отличие от предыдущего, основывается не на предварительной оценке общностей, а на априорном определении числа общих факторов и в случае большой выборки позволяет получить статистический критерий значимости полученного факторного решения.

Метод минимальных остатков (Г. Харман) основан на минимизации внедиагональных элементов остаточной корреляционной матрицы; проводится предварительный выбор числа факторов.

Альфа-факторный анализ был разработан специально для изучения психологических данных; выводы носят в основном психометрический, а не статистический характер; минимальное количество общих факторов оценивается по собственным значениям и коэффициентам общности. Факторизация образов, в отличие от классического факторного анализа, предполагает, что общность каждой переменной определяется как линейная регрессия всех остальных переменных.

Перечисленные методы отличаются по способу поиска решения основного уравнения факторного анализа. Выбор метода требует большого опыта работы. Однако некоторые исследователи используют сразу несколько методов, выделенные же во всех методах факторы считают наиболее устойчивыми.

Третий этап – это “поворот” факторов в пространстве для достижения простой структуры, в которой каждая переменная характеризуется преобладающим влиянием какого-то одного фактора. Выделятся два класса вращения: ортогональное и косоугольное. К ортогональным методам относятся методы “Varymax” (Kaiser, 1958) – максимизируется разброс квадратов факторных нагрузок по каждому фактору в отдельности, что приводит к увеличению больших нагрузок и уменьшению – маленьких. “Quartymax” - простая структура; в отличие от предыдущего метода формируется для всех факторов одновременно. В некоторых случаях важнее получить простую структуру, чем сохранить ортогональность факторов. Для достижения этого используются аналогичные методы косоугольного поворота: “Oblymin” и “Oblymax”.

Метод КФА позволяет оценить валидность тестов (конструктную, дискриминантную, конвергентную). Использование множества индикаторов для каждого латентного конструкта дает возможность представить степень, с которой каждая переменная объясняет латентную переменную. Остаточная дисперсия обусловлена случайными колебаниями. С помощью параметров измерительной модели определяется внутренняя согласованность теста, по которой можно говорить об уровне надежности измерения. Моделирование с помощью латентно-структурных уравнений позволяет проводить также анализ данных лонгитюдного исследования с множественными индикаторами (K. Joreskog, 1979, 1988).

При интерпретации факторов можно начать работу с того, что выделить наибольшие факторные нагрузки в данном факторе. Для выделения можно использовать приемы, аналогичные выделению значимых коэффициентов корреляции, то есть оценивать факторные нагрузки, сравнивая их по величине с критическими значениями коэффициентов корреляции. Для подбора названий факторов нет формализованных приемов, здесь можно довериться интуиции. В качестве предварительного варианта можно использовать имя переменной, которая вошла в фактор с наибольшей нагрузкой.

Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций)на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

-Кластерный анализ выполняет следующие основные задачи:

-Разработка типологии или классификации.

-Исследование полезных концептуальных схем группирования объектов.

-Порождение гипотез на основе исследования данных.

Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

  • Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.

  • Определение множества переменных, по которым будут оцениваться объекты в выборке, т.е. признакового пространства.

  • Вычисление значений той или иной меры сходства (или различия) между объектами.

  • Применение метода кластерного анализа для создания групп сходных объектов.

  • Проверка достоверности результатов кластерного решения.

Кластерный анализ предъявляет следующие требования к данным:

  1. показатели не должны коррелировать между собой;

  2. показатели не должны противоречить теории измерений;

  3. распределение показателей должно быть близко к нормальному

  4. показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов

  5. выборка должна быть однородна, не содержать «выбросов».

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]