Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭЛЕКТРОННЫЙ_УЧЕБНИК.doc
Скачиваний:
93
Добавлен:
20.11.2019
Размер:
2.45 Mб
Скачать

Вопрос 25. Какие ценности наиболее значимы для современных северян? (Дайте не более 3-х ответов)

  1. Образование 16,0

  2. Прочная семья 10,7

Обеспеченная старость 12,2

  1. Здоровье членов семьи 24,4

  2. Материальный достаток 23,0

  3. Престижная и высокооплачиваемая работа 8,6

  4. Северная доброжелательность, гостеприимство,

добрососедство 2,9

  1. Личная безопасность 1,6

  2. Другое, напишите, пожалуйста 0,2

0 Нет ответа 0,4

Вопрос № 68. Ваш возраст ______полных лет?

При анализе данного распределения, прежде всего, необходимо обратить внимание на ценности, которые важны для определенных возрастных групп (выделяемых на основании средней).

1. Самая младшая группа со средним значением в пределах 34 лет – ценности 1 и 6 ‑ образование и престижная высокооплачиваемая работа.

2. Возрастная группа в пределах 36 лет – ценности 2, 4, 5 – семья, здоровье, материальный достаток.

3. Почти 38 лет (37,8) основная ценность – 7, северная доброжелательность, гостеприимство, добрососедство.

4. Возрастная группа 40, 0 – 41,1 лет, основные ценности – 3, 8 - обеспеченная старость, личная безопасность.

Главное достоинство такого типа распределения определяется тем, что оно позволяет выделить латентную группу респондентов, которая отказалась назвать свои ценности – это «0» позиция. Однако мы имеем средний возраст этой группы – 39,87 года, что очень близко к 3 и 8 позиции – 41,1 года. С большой долей вероятности мы ее к ним и относим.

Стандартное отклонение (dev – deviation) необходимо рассматривать отдельно. Коэффициент детерминации равен 0,2 что свидетельствует о неравенстве средних, что мы и подтвердили своим описанием. Укажем на то, что данная процедура, это своего рода факторный анализ вручную, для номинального признака в сочетании с «метрикой», поскольку он позволил нам выявить очень четкие типологические группы. Кратко и метафорически их можно типологизировать как: 1 – «интеллектуалы»; 2. «семейные»; 3. «традиционалисты»; 4. «осторожные».

Двумерное распределение рангового и метрического признака

Вопрос 2. Изменилось ли за последние три года благосостояние вашей семьи?: улучшилось, осталось прежним, ухудшилось.

Вопрос 79. Сколько времени Вы проживаете в Красноселькупском районе?

Var #2 with Var #79

#Valid Observations=1345, #Missing Observations=0

Value Freq Min Max Ave Dev

=============================================

0 34 0.000 33.00 13.56 9.546

1 204 0.000 48.00 12.20 10.04

2 624 0.000 51.00 14.41 9.811

3 483 0.000 58.00 15.93 9.209

=============================================

Total 1345 0.000 58.00 14.60 9.709

Hypothesis: NOT All Variances Are Equal,- Significance=0.3837

Hypothesis: NOT All Averages Are Equal,- Significance=0.0001

Correlation=0.0666, Determination=0.5055%

Hypothesis: Non-linear Dependence,- Significance=0.7562

Для самостоятельной работы: Попробуйте прокомментировать последнее распределение (2*79) самостоятельно, коэффициент детерминации которого достаточно значим.

07.11.2008 9:21:31

Глава 27. Многомерные методы анализа данных социологического исследования

Ключевые понятия. Автотрансформация признаков. Интерпретация данных. Латентные группировки. Группы факторов. Коэффициенты линейной и ранговой корреляции. Согласованность изменений. Связи казуальные и опосредованные. Статистическая связь. Вероятностное состояние. Функциональная детерминация. Корреляционная матрица. Объясняемая дисперсия. Канонические компоненты. Таксономические процедуры. Факторный анализ. Метод «главных компонент». Латентно-структурный анализ. Многомерная классификация. Кластерный анализ. Меры классификации. Регрессионный анализ. Процедуры усреднения. Вращенная факторная матрица. Факторный вес признака. Объясняющая сила фактора.

Углубляясь в познание методов анализа данных, социологам необходимо понимать, что их задача заключается, прежде всего, в использовании того, что заложено в процедурах пакетов статистической обработки данных. С другой стороны, необходимо четкое знание основных понятий статистики. Некоторые понятия мы рассмотрели в предыдущей теме. В данном разделе рассмотрим ряд понятий и процедур относящихся к многомерному анализу данных. В обыденной жизни термин «статистика» обозначает просто числа или данные относительно сфер материальной или духовной жизни. В науке статистика связана с искусством извлечения полезной и осмысленной информации из наборов чисел, в том числе отражающих формализацию данных социологического опроса. Именно это нас и интересует. Для овладения большинством процедур статистической обработки данных используемых в социологии достаточно тех знаний, которые заложены в курсе естественно-научных дисциплин. Более того, зачастую просто здравый смысл является самым острым инструментом анализа, что мы попытались проиллюстрировать на примерах линейных распределений и модальных значений номинальных признаков.

Одна из особых задач социолога, решаемых в ходе обработки данных, это использование методов многомерного анализа имеющих самые разнообразные цели. Ими могут быть, например, автотрансформация ‑ перевод анализируемых переменных анкеты из линейного в матричное и, следовательно, свернутое описание, что дает возможность одновременного и объемного оценивания величины и характера их корреляционных взаимозависимостей. Использование процедур многомерного шкалирования для получения новой переменной, отражающей, например, совокупный объем управленческой деятельности в организации. Предназначение факторного или кластерного анализов, заключается в потенциальной возможности выявления скрытых латентных, типологических группировок в структуре первичных данных, проявляющихся в виде статистически взаимосвязанных групп факторов или переменных в кластере (если конечно такая зависимость между ними есть, но это не факт). С этой точки зрения, итоговым результатом, задачами применения многомерного анализа является получение интерпретируемого содержательного результата, объясняющего например, типы предпринимательского поведения конкретного коренного этноса в условиях перехода к рынку, типологию различных социально-культурных досуговых групп населения, а не просто величины расстояний от центра кластера или веса набора факторов. С этих позиций и рассмотрим основные многомерные процедуры.

Корреляционный анализ. Исходной процедурой практически для всех многомерных методов является корреляционный анализ. Корреляционный анализ (от лат. correlatio — соотношение) - математические процедуры, предназначенные для изучения статистических связей между отдельными признаками или группами признаков социальных объектов. Наиболее распространенной является процедура полного парного анализа связей между всеми переменными, выделенных для анализа блока или блоков анкет. Корреляционные матрицы исследуемых признаков являются, как правило, основой для последующих видов многомерного анализа и сохраняются в виртуальной памяти компьютера на время расчетов разных заданий. Существуют различные коэффициенты корреляции: равные произведению моментов, энтропийные и многие другие. Научная литература в этой области знаний очень обширна. Отметим еще раз, что для количественных признаков рассчитываются коэффициенты линейной корреляции. Для ранговых могут подсчитываться различные коэффициенты связи: ранговой корреляции Спирмена, Кэндалла, коэффициенты линейной корреляции - или коэффициетны контингенции (Пирсона), который рассчитывается также для номинальных признаков. В основе большинства процедур измерения сопряженности признаков, лежит идея о том, что связь между переменными величинами выражается во взаимной согласованности их изменений (изменений частот распределения одного признака относительно частот другого). Чем выше коэффициент корреляции между двумя переменными, тем полнее можно предсказать значения одной из них по значениям другой. Однако коэффициент корреляции между двумя переменными не содержит информации о том, является ли данная связь между ними причинно-следственной или связью сопутствия, связью опосредования, порожденной действием неких более общих причин. Этот вопрос решается исследователем на основе контекста - содержательных концептуальных представлений о структуре и динамике изучаемых социальных объектов выявленных на этапе предварительного системного анализа объекта и, на основе анализа корреляций между всеми изучаемыми признаками.

Последнее осуществляется с помощью метода множественного корреляционного анализа, где устанавливается корреляционная зависимость между множеством ранговых и метрических признаков, описывающих какое либо явление. В исходной матрице мы получаем коэффициенты связи каждого признака с каждым, после чего мы выделяем наиболее значимые связи (связи превышающие пороговые значения). Если матрица описаний включает «n» признаков, возможно вычисление n (n-1)/2 коэффициентов парной корреляции. Разновидностью данного анализа является каноническая корреляция, которая определяет взаимосвязь одной группы переменных с другой группой переменных, либо одного признака с группой других переменных.

Совокупность всех коэффициентов образует корреляционную матрицу, которая симметрична (подобно социометрической или экспертной), поскольку порядок сопоставления каждого с каждым признака не влияет на величину коэффициентов корреляции, а элементы ее главной диагонали равны единице (корреляция признака с самим собой). Социальная практика требует от исследователя выделения существенных связей между социально важным (ми) признаком (ми) и определяющими его факторами (вспомним методологию социологического эксперимента). В отличие от функциональной или прямой зависимости, статистическая связь характеризуется многозначной зависимостью между признаками и отражает некоторую тенденцию наличия/отсутствия зависимости одного признака от другого. Следовательно, статистическая связь предоставляет возможность только вероятностного предсказания состояния одного признака при известном состоянии другого. Между тем признаки, как правило, детерминируются многими факторами. Если бы эти факторы, в свою очередь, не зависели друг от друга, то их влияние, вычисляемое, например, в процентах объясняемой дисперсии, на управляемый признак можно было бы суммировать. И тогда, добавление нового фактора, в соответствии с гипотезой, приближало бы нас к постижению полной функциональной детерминации этого признака (текучесть кадров, миграционная подвижность, удовлетворенность трудом и т.п.). Однако в социуме существует не только множественная факторная (причинная) взаимозависимость. Существуют другие переменные (ценностные ориентации, обязательства, социальная принадлежность и т.п.), которые перекрывают (опосредуют) влияние данных факторов на управляемый признак. В силу этого парная статистическая связь является относительно слабым инструментом изучения причинности, хотя и позволяет, на основе таблиц, дать понятное и детерминированное, в разной степени, описание состояния социальной действительности.

Преодолеть этот недостаток возможно методами многомерного статистического анализа. Рассчитанные матрицы коэффициентов корреляции обычно сохраняются в виртуальном файле на время сеанса работы с программой, и используются для конкретных типов многомерного анализа – факторного, канонического, кластерного, регрессионного и других. Как правило, программы вычисляют скорректированные коэффициенты связи допустимые для конкретной пары признаков и размерности шкал, что упрощает анализа и интерпретацию данных расчетов. В противном случае, при написании отчета приходилось не только бы объяснять смысл факторных весов признаков, или смысл зависимости, но и объяснять, чем один коэффициент корреляции лучше другого, что делало бы их нечитабельными. Программы обработки позволяют также распечатывать матрицы с парными коэффициентами корреляции, уровень значимости которых не ниже порогового или выше и т.д.

Одним из основных методов статистического анализа данных, позволяющий связывать объясняемые и объясняющие характеристики социальных явлений и процессов в единое целое, в некую теоретическую систему является каноническая корреляция - анализ связи между двумя группами признаков. Логическая задача здесь формулируется следующим образом: количественно характеризовать долю, степень с которой характеризуемое многими переменными явление или процесс объясняется выбранной совокупностью факторов (обычо это признаки двух различных блоков анкет). Процесс расчетов связан с преобразованием исходной корреляционной матрицы на блоки признаков: определяемых и определяющих, каждый из которых трансформируется в нормированный вектор описания с последующим их преобразованием в канонические величины, с максимизацией коэффициента множественной корреляции, который отражает величину односторонней зависимости блоков признаков.

Объясняемый процент дисперсии переменных (как и при факторном анализе), выражается средним квадратным весов признаков в его канонической переменной, для которой также важно максимизировать процент дисперсии и веса первой канонической переменной (независимой). Для этого разработан метод анализа канонических компонент, для которого необходимо указание заданности обясняемых и обясняющих переменных – т.е. направления расчетов, что приводит к однозначному подсчету процентного отношения дисперсии объясняемой совокупности.

Как мы уже отмечали, корреляция отражает только статистическую зависимость и может свидетельствовать не о прямой, а о связи опосредованной многими промежуточными явлениями. Поэтому возникает необходимость выделения существенного в исходных признаках и установления соотношения «общего» и «специфического» в группе анализируемы переменных. Решать эти задачи позволяют таксономические процедуры.

Таксономические процедуры (от греч. taxis - расположение по порядку и nomos — закон) — математико-статистические методы многомерной типологизации социальных объектов. Таксономические процедуры называют также автоматической классификацией, кластерным анализом, распознаванием образов. Они дополняют корреляционный и факторный анализы, которые чаще всего нацелены на классификацию не самих объектов, а их свойств. С помощью таксономических процедур, рассматриваемые социальные объекты сравниваются по выраженности некоторых признаков: например, различные группы работников — по выраженности деловых качеств, различные предприятия — по показателям экономической, инновационной деятельности, различные страны — по показателям развития культуры. К одному типу (таксону, кластеру) статистика (программа обработки) относит такие объекты, которые по результатам подобных сравнений оказываются ближе друг к другу, чем к остальным объектам рассматриваемой совокупности. В разных таксономических процедурах используемые математические формулы вычисления различий ("расстояний") между объектами не одинаковы. От исследователя, проработавшего концепцию на этапе создания теоретической модели, разработки инструментария исследования, и пользующегося затем таксономическими процедурами, зависит выбор признаков, по которым осуществляется сравнение социальных объектов, а также "весов" (нагрузки), которые он придает различиям по каждому из этих признаков. Одни и те же объекты можно классифицировать с разной степенью дробности, и это тоже зависит от того, какой уровень их близости исследователь выберет в качестве порогового, какие факторы он будет считать «параллельными», «синонимичными» и отбросит их в ходе анализа. Чтобы получить содержательно интерпретируемые результаты применения таксономических процедур, анализируют характеристики ключевых (таксонообразующих) объектов, варьируют "веса" признаков или несколько изменяют их набор, подвергают факторному анализу те признаки, на основе которых произведена типологизация социальных объектов. То есть результаты зависят от гибкости концепта и возможности перебора его составляющих признаков.

Факторный анализ. В настоящее время в анализе данных используется ряд процедур факторного анализа, которые мы рассмотрим в пределах допустимого объема текста раздела, и доведем его до содержательного результата. Начнем с метода «главных компонент». При его использовании исходят из посылки, что при анализе информация не должна теряться и задача состоит только в ее упорядоченности по степени важности. Поэтому модель не предусматривает выделения специфичных факторов и предполагает число факторов равных числу анализируемых переменных, а выявленные факторы объясняют всю дисперсию анализируемых признаков. Это позволяет получать однозначное решение для последующей интерпретации, поскольку с математической точки зрения задача сводится к пространственному повороту координатных осей – процедуре основанной на методах линейной алгебры. Главные компоненты ‑ это линейные комбинации первичных измерений включенных в матрицу, веса которых нормированы так, что сумма их квадратов равняется единице, а их совокупность является вектором, выражающим некоторое направление распределения. Так, первая главная компонента определяет направление наибольшей дисперсии в многомерном пространстве признаков, вторая главная компонента – направление ортогональное к первой ‑ с последующей по величине дисперсией и т.д. Эти направления совпадают с осями эллипсоидов в многомерном пространственном (геометрическом) нормального распределения, выражающих места одинаковой плотности вероятностей наблюдений. А поскольку число главных компонент равно числу измерений в матрице описаний, то метод ГК сводится к повороту координатных осей так, чтобы они совпадали с главными осями эллипсоидов распределения. Когда учтены все главные компоненты, исчерпывается вся дисперсия первоначального измерения и для исследователя не теряется ни какой информации.

Однако, в таком случае, мы имеем не так уж много преимуществ по сравнению с вдумчивым анализом средних величин (моды, медианы) частотных распределений. Идея заключается в том, чтобы найти возможность отбрасывания некоторых компонент с малой дисперсией, для получения боле плотного многомерного пространства. Потеря информации тогда небольшая, а преимущества значительны. Во–первых, новые переменные становятся независимы друг от друга, а во–вторых, их число значительно меньше исходного, а в-третьих – выделяются наиболее весомые. Так как главные компоненты являются собственными векторами так называемой ковариационной матрицы, достаточно установить собственные значения этой матрицы, расположить их по величине и вычислить соответствующие собственные матрицы. Поскольку главные компоненты, как мы отмечали, исчерпывают всю дисперсию матрицы описаний, нетрудно определить процент дисперсий объясняемой каждой главной компонентой – он равняется λi / Σ λi * 100% ‑ где λi есть i-e собственное значение. Это позволяет определить, сколько главных компонент необходимо учитывать, чтобы сократить количество переменных описания без существенной потери информации.

В свою очередь, часто бывает невозможно проинтерперетировать полученные методом главных компонент результаты исследований, где одной из целей является построение гипотетической модели предмета исследования, поскольку одноальтернативное решение для этого малопригодно. Эта задача часто решается вращением выделенных главных компонент так, чтобы их можно было интерпретировать с содержательной точки значения. Факторная матица после вращения содержит корреляционные значения главных компонент и их допустимые единичные вектора, расположенных в убывающем порядке. В других методах факторного анализа заранее предполагается, что число факторов существенно меньше числа переменных участвующих в анализе и что эти факторы не исчерпывают всей объясняемой дисперсии, специфической для каждого признака.

В настоящее время признаны классическим и такие процедуры факторного анализа как метод максимального правдоподобия, канонического анализа, альфа-факторного анализа. В основе последнего, лежит понятие обобщенности анализируемых переменных. Основное предположение заключается в том, что фактор общий для всех переменных, определяется как линейная комбинация бесконечного числа переменных, которые образуют генеральную совокупность. Тогда фактор, извлекаемый при анализе переменных выборки (не случайной), определяется как имеющий максимальную корреляцию с соответствующим общим фактором генеральной совокупности. Общее правило использования ФА заключается в том, что структура анализируемых данных должна соответствовать математической модели, а через них - структуре изучаемых социальных явлений и характеру собранных данных (чем выше уровень шкал, тем лучше).

Исходя из сказанного, нельзя, однако, утверждать, что один метод анализа лучше другого. Все же надо отметить, что факторный анализ обоснован только для метрических признаков, в которые можно перевести и номинальные. Тем не менее, для ранговых признаков рекомендуется неметрический факторный анализ, или латентно-структурный анализ.

Латентно-структурный анализ (от лат. latentis — скрытый, невидимый) — метод статистического анализа эмпирических данных, позволяющий по ответам респондентов на некоторое множество вопросов выявить их распределение по некоторому скрытому (латентному) признаку. Этот признак нельзя измерить непосредственно, но использованное социологом множество вопросов позволяет зафиксировать различные его проявления. Метод предложен американским социологом П. Лазарсфельдом (1901 —1976). По своим задачам латентно-структурный анализ сходен с факторным анализом, но в отличие от последнего, требующего, чтобы исходные признаки были количественными, предназначен для анализа качественных переменных. Существуют также обобщения метода латентно-структурного анализа (например, метод латентно-профильного анализа У. Гибсона), которые позволяют анализировать и количественные признаки, причем итоговый (латентный) признак может быть как качественным, так и количественным. Несмотря на наличие некоторых преимуществ по сравнению с методом факторного анализа, латентно-структурный анализ не получил широкого распространения в исследованиях отечественных социологов.

Многомерная классификация. Классификация это упорядочение определенной совокупности объектов в классы (группы) на основании их родства, сходства или иных подобных отношений. В этом смысле понятие «классификации» означает и процесс исследовательской деятельности и ее результат. При многомерном подходе к анализу данных понятие «совокупность объектов» можно заменить понятием «кластер» ‑ и как исходная совокупность и как результат процесса обработкит. Математически, кластер – это некоторая геометрическая область пространства признаков, внутри которой все точки (отображение классифицируемых объектов) считаются одинаковыми, а объекты отраженные в разных областях пространства – разными. Такая классификация объектов представляет собой логическую замену группы похожих, но не идентичных объектов «обобщенными», «типичными» для данной группы объектов. Поэтому такая группировка всегда связана с потерей информации, так как индивидуальные вариации оценок признаков внутри группы (пусть и небольшие) не учитываются и все включенные в нее объекты считаются одинаковыми. По сути, это как раз и отражает методологическую суть спора между «количественниками» и «качественниками»: Что важнее – типичное или индивидуальное в социуме, позволяющее определить его истинную природу?

Таким образом, при кластеризации может возникнуть явное противоречие – чем больше выделено типов, тем меньше потерь информации, но тем меньше пользы от классификации - так как нет типологий. Поэтому оптимальной считается такая классификация, которая дает минимальное число кластеров, при условии, что потеря информации не превышает некоторых допустимых условий и отвечает поставленным исследовательским целям.

Основной вопрос классификации – считать ли рассматриваемое множество конечным, а все его члены заданными, или принять его за выборку из некоторого большого (лучше бесконечного) множества. В первом случае у нас не возникает проблем, но кластеры отражают только данную совокупность объектов (например, специфический исследовательский отраслевой коллектив). Во втором случае результаты представляются как теоретические, но возникает ряд статистических вопросов. Однако здесь важна позиция социолога. Первое. Требуется проверка полезности кластеров с помощью дополнительной информации об объектах. Полезность – это новые, ранее не раскрытые, эмерджентные социальные свойства, что можно проиллюстрировать известным изречением Аристотеля «Это собака – следовательно, она лает и кусается». Второе. Использованная модель классификации апробируется на новой выборке, на той же популяции (объекте), с проведением сравнительного анализа полученных результатов. Понятно, что это самый надежный, но практически не выполнимый путь проверки истинности классификации. При классификации используются такие понятия, как «сходство», «различие», «близость», «родственность» «однородность» которые при классификации по качественным признакам обычно определяются интуитивно и относительно приближенно. При количественной классификации вводятся количественные оценки этих понятий.

Выделяют три вида мер, используемых в кластерном анализе: Первое. Меры, характеризующие сходство/различие двух объектов, представленных точками в многомерном пространстве. А также сходство объекта с некоторым кластером и сходство двух кластеров; Второе. Меры, характеризующие компактность или однородность отдельного кластера; Третье. Меры качества классификации, выделяющие различие между двумя исходными объектами или кластерами и кластером, полученным при объединении исходных.

Меры сходства – в метрическом многомерном пространстве это либо расстояние между объектами, либо некоторая невозрастающая функция этого расстояния. В неметрическом пространстве – либо евклидово расстояние, либо сумма абсолютных величин разницы оценок по всем признакам.

В процедурах сравнения обычно определяется типичный представитель кластера: «ближайший сосед» ‑ «самый дальний сосед» и сходство определяется по месту на этом континууме, объектов из двух сравниваемых кластеров. Развитие метода привело к смещению роли места соседа в методе. Лучшим представителем стал считаться центр тяжести кластера, координаты которого – средние оценки по каждому признаку входящего в кластер. Поэтому сходство фиксируется по сходству центров тяжести. Однако, при объединении двух кластеров с неодинаковым числом объектов центр вновь полученного кластера лежит близко к центру исходного кластера с большим числом членов, а характерные особенности меньшего кластера как бы растворяются. Здесь в расчетах используется среднее сходство двух кластеров на основании исчисления попарного сходства членов сравниваемых кластеров, где сумма полученных оценок делится на произведение чисел учтенных пар, что стало легко рассчитывать на новых современных РС.

Существуют также меры компактности и меры качества классификации, которые основаны на той же математической логике: сходство центров тяжести, сходство членов кластера. Поскольку избранный на каждом шагу способ классификации обычно предопределяет дальнейший ход анализа важно выбирать на каждом этапе оптимальный способ классификации. Мерой качества может служить разница оценок компактности. Для оценки классификации в целом, чтобы из нескольких вариантов выбрать наилучший, чаще всего используется средняя оценка компактности всех кластеров.

Все указанные меры позволяют использовать самые различные классификационные системы, объединяемые в две группы: иерархические системы и системы кластерного анализа. Последние предполагают некоторую оптимизацию компактности кластеров для выявления типичного, иерархические же сводятся к построению дендрограмм, для выявления конечного перечня объектов.

Регрессионный анализ. Как и многие другие статистические методы, он призван решать, прежде всего, практические производственные задачи (как в случае с факторным анализом компонентов «меню» для наилучшего привеса животных). Исходным посылом в логике анализа является то, что в производстве есть достаточно много процессов, когда, измеряя их, мы измеряем и результат. Однако многие действия связаны, прежде всего с работой мысли, наблюдать которые нельзя и даже их вклад в общую «копилку» команды может быть отложенным. Сами результаты могут быть достигнуты многими путями, а качество результатов часто зависят от способов их получения. Однако, в любом случае, достижение некоторых желательных результатов имеют некоторую количественную определенность - условия или факторы, связанные с данной работой, процессом, явлением. Как минимум деятельность характеризуются временной протяженностью – переменной, отражающей необходимую величину времени для получения данного результата. А раз так, то имеет место отношение «причина-следствие»: данные условия и факторы задают период времени необходимый для получения некоторого результата. Их отклонения приведет, по всей видимости, к изменению продолжительности данного периода. И тогда если упомянутые условия или факторы, их изменение и конечные результаты могут быть измерены, то соотношение между этими величинами, с одной стороны, и необходимым для достижения известного результата временем – с другой, можно выразить в виде количественной модели, которая и получила название метода множественной линейной регрессии – МЛР-анализа. Различные качественные и количественные факторы, которые используются в регрессионной модели, называются предикаторами – или независимыми переменными. Используемые для достижения поставленной цели факторы (ресурсы, идеи, способы) выступают в качестве зависимых переменных, или индикаторов «ответа» на ввод независимых переменных. Метод множественной регрессии позволяет оценить тесноту связи каждого из факторов с искомым результатом, однако необходимо помнить, что он основан на использовании прошлого опыта, т.е. независимые факторы останутся в будущем примерно на том же уровне, что и на момент анализа. Однако, модифицируя факторы, мы получаем возможность получения альтернативных моделей. Понятно, что эта модификация носит субъективный характер, т.е. не вытекает из анализа объективных данных. В этом смысле регрессионная модель, как и все другие многомерные модели, сама по себе ничего никому не предписывает, она является лишь инструментом прогнозирования.

С математической точки зрения регрессионный анализ является развитием хорошо известного метода усреднения. В процессах, для которых характерна изменчивость, часто используется среднее арифметическое, чтобы выразить основную тенденцию или типичный результат. Если индивидуальная изменчивость по сравнению со средним статистическим невелика, то тогда можно прогнозировать будущие результаты. Вспомним, что изменчивость выборочных средних уменьшается с увеличением размера выборки. Тогда можно надеяться, что средние за месяц, год будут более предсказуемы, чем за неделю. Среднее арифметическое «изменчивости» представляет собой центральное значение, выбранное таким образом, что сумма квадратов расстояний от него до каждого из отдельных значений является минимальной – метод такого расчета носит названия «метод наименьших квадратов». Однако в социуме часто бывает так, что изменчивость отдельных наблюдений выше ожидаемого, и тогда среднее арифметическое уже не может быть хорошим прогнозом отдельных событий, даже если средние по большим выборкам группируются вокруг главного среднего (опять эта проблема типичного и особенного!). Отдельные события могут изменяться уже не случайным образом, а в соответствии с изменением условий. В таких случаях требуется условное среднее – значение, которое можно ожидать в типичном случае для некоторого определенного набора условий. От определения этих условий и зависит социологический прогноз.

Общее уравнение для простой модели РА (с одной объясняющей переменой выглядит так:

Ŷi = b0 + b1 Xi1 где b0 – cвободный член регрессии (выраженный в единицах Y), b1 – коэффициент угла наклона регрессии (выраженный в единицах Y, деленную на единицу Х1, а Х1 – объясняющая переменная. Свободный член bo следует интерпретировать как среднее воздействие (на объясняемую переменную) всех факторов (потенциально объясняющих переменных) которые не вошли в модель.

Метод регрессионного анализа предполагает выбор значений для b0 и b1, которые обеспечивают минимальную вариацию остаточной ошибки для модели, заданной выражением (1). Эта остаточная вариация вычисляется из суммы квадратов отклонений индивидуальных значений от линии регрессии. Т.е. данная регрессионная модель тоже является оценкой «наименьших квадратов», как и среднее арифметическое. Когда регрессионное уравнение получено (в результате работы программы) и распечатано, можно ставить вопрос, все ли учтенные признаки необходимы для прогноза, т.е. можно ли сократить пространство признаков без существенного снижения качества предсказания. (Метод редукции регрессионных сумм квадратов). При небольшом количестве признаков сокращение их пространства можно достичь простым перебором. Например, если имеются четыре признака (1, 2, 3, 4) на основании которых строится модель, то можно посмотреть, как измениться ошибка при учете всех возможных сочетаний меньшего количества признаков: (1,2,3), (2,3,4), (1,2), 1,3), (1,4), (2,3), (2,4), (3,4), (1), (2), (3), (4). Из всех данных совокупностей признаков выбирается та, которая дает наименьшую ошибку, или та, для которой увеличение ошибки, по сравнению с исходной совокупностью четырех признаков незначительно, но более выгодно по теоретическим или практическим соображениям. Ясно, что этот подход полезен лишь при небольшом числе переменных модели.

Общая форма модели множественной линейной регрессии является просто развитием выражения (1), в которое включается N объясняющих переменных. По понятным причинам, мы эту модель развивать не будем.

n

Ŷi = b0 + Σ b1 Xi1

J=1

Отметим, что линейная регрессия считается множественной, когда N > 2. Регрессия линейна, потому что неизвестные параметры входят в нее в линейном виде. Это позволяет определить параметры b, как средние взвешенные, и не требует, в отличие от нелинейных, использования рекурсивных методов расчетов для нахождения наилучших значений неизвестных параметров b.

Дисперсионный анализ (от лат. dispersus — рассеянный, рассыпанный) — метод статистического анализа, предназначенный для оценки влияния ряда независимых качественных переменных (факторов) на количественную переменную (признак). В зависимости от числа факторов выделяют однофакторный и многофакторный дисперсионный анализ. Этот метод основан на выделении отдельных компонентов общей дисперсии (рассеивания) изучаемого признака, связанных с влиянием вариаций отдельных факторов и их сочетаний. Он широко используется при планировании экспериментов и анализе полученных результатов. пример исходной таблицы, для двухфакторного дисперсионного анализа, представляют данные эксперимента по определению влияния длины анкеты и типа напоминания на долю возврата (процент вернувшихся заполненными анкет к числу разосланных) при почтовом опросе. Дисперсионный анализ позволяет оценить статистическую значимость влияния каждого из факторов (типа напоминания и длины анкеты) и отдельных значений факторов на изучаемый признак — возврат почтовых анкет. В отличие от традиционного способа планирования и анализа эксперимента, при котором изменяется лишь одна независимая переменная, использование дисперсионного анализа позволяет одновременно варьировать значения ряда факторов, что существенно повышает эффективность эксперимента.

Рассмотрим конкретный пример одного из видов многомерного анализа данных. Факторный анализ (от лат. factor — делающий, производящий). ФА является естественным продолжением и развитием корреляционного анализа, как метод многомерной математической статистики, применяющийся обычно для измерения взаимосвязей между группой признаков социального объекта и классификации признаков с учетом взаимосвязей этих переменных. В факторном анализе на основе парных корреляций между всеми переменными получают набор новых, укрупненных признаков; их и называют факторами. Число факторов всегда меньше числа исходных переменных. Это число указывается при составлении задания на обработку. При получении неинтерпретируемой композиции, число факторов меняется, до получения интерпретируемых результатов (но это не всегда достижимо). Величина нагрузки ("веса") исходного признака по какому-либо фактору может колебаться от -1 до +1, которая показывает, насколько тесно связан данный признак с фактором и каков характер этой связи (знак лишь указывает направление счета). Группировка переменных данного фактора по близким «весам» и дает искомую латентную структуру явления. Их совокупность по нескольким факторам позволяет достаточно точно описать явление, если оно существует в данной общности. Для поиска истины приходится построить перебором несколько факторных моделей.

Использование факторных весов, с указанием их доли (процентной) значимости для всей структуры анализируемых переменных, вместо линейного описания значений по первичным показателям снижает избыточность описания при моделировании социального объекта и анализе эмпирических данных, позволяет выявить латентные структуры, экономит труд исследователя, позволяет более сжато и наглядно представить полученные результаты. На основе корреляции (взаимосвязей) между факторами первого порядка могут быть получены еще более укрупненные факторы второго порядка; в свою очередь, корреляции между ними позволяют перейти к следующей ступени укрупнения исходных переменных — факторам третьего порядка и т. д.

Наиболее сложный этап факторного анализа — содержательная интерпретация обнаруживаемых взаимосвязей. С этой целью к исходному набору переменных добавляют признаки, которые прежде в него не входили, и повторяют факторный анализ с этим расширенным набором. В случае, если исходные факторы сохраняются, новые признаки становятся своеобразными "ключами" к их интерпретации. Благодаря этой и подобным процедурам факторный анализ наряду с традиционными функциями классификации признаков и порождения гипотез приобретает также функцию проверки последних. Рассмотрим пример факторного анализа, проведенного автором по результатам масштабного исследования РЭУ «Красноярскэнерго».

Таблица 1

Факторная матрица досуговой деятельности работников Красноярской энергосистемы (N = 19200; n=2740, L=295 переменных. Опрос 1984 г.). Обработано программой «PAULA»

Выделяемые работниками показатели досуговой деятельности

Факторные нагрузки после вращения

I II III IV V

  1. Выполнение общественных поручений -0.011 0.114 -0.436 0.125 0.111

  2. Учеба, самообразование, чтение -0.026 0.147 0.422 0.023 0.046

научной литературы, справочников

  1. Собирание книг, марок и др. -0.086 0.025 0.411 0.156 0.098

  2. Посещение театров, выставок, музеев 0.043 0.046 -0.367 0.313 0.018

  3. Чтение художественной литературы 0.112 0.198 0.443 0.172 0.162

  4. Знятие искусством (музыкой, литературным

творчеством, живописью, художественной

самодеятельностью. 0.006 0.091 -0.032 0.380 0.054

  1. Занятие техническим творчеством: автомото,

фото, радиолюбительство, и др. 0.119 0.561 0.089 0.076 0.032

  1. Прослушивание по радио и просмотр по ТВ 0.743 0.116 0.174 0.162 -0.021

передач познавательного характера

  1. Решение кроссвордов, ребусов 0.143 -0.032 0.485 -0.081 -0.021

  2. Любительские занятия физкультурой,и спортом 0.011 -0.062 0.405 -0.031 -0.063

(турпоходы, путешествия, волейбол, плавание и др)

  1. Общение, встречи с любимым человеком -0.032 -0.061 -0.091 0.390 0.098

  2. Пребывание в кругу семьи, воспитание детей

(прогулки, выходы в кино и др.) 0.756 0.110 0.076 0.045 0.014

  1. Прием гостей, посещение родных и знакомых 0.714 -0.034 0.041 0.132 0.0187

  2. Посещение ресторанов кафе, баров 0.004 0.054 -0.052 -0.061 0.214

  3. «Распить рюмочку» или кружку пива -0.077 0.021 -0.032 -0.071 0.279

  4. Посещение вечеров отдыха, танцев, кино -0.009 0.042 -0.064 -0.315 -0.032

  5. Усовершенствование профессиональных качеств

чтение специальной научной, технической 0.110 0.534 0.034 0.022 0.062

литературы

  1. Полежать, посидеть, ничего не делая 0.003 0.011 0.051 0.033 0.272

  2. Работа в саду, огороде, на даче 0.740 0.021 0.016 0.132 0.141

  3. Прослушивание магнитофонных записей и пластинок 0.065 0.513 0.031 0.086 0.092

  4. Занятие охотой рыболовством 0.082 0.526 0.073 0.008 0.131

  5. Кройка, шитье вязанье, рукоделие 0.710 0.031 0.052 0.074 0.063

  6. Посещение лекториев, познавательных бесед -0.005 -0.059 0.131 0.085 0.005

  7. Настольные игры (шахматы, шашки, домино и др.) -0.032 0.522 0.064 0.043 0.244

  8. Благоустройство, ремонт комнат, дома, 0.141 -0.581 0.092 0.051 -0.007

изготовление домашних поделок

  1. Встреча с друзьями в заводском (городском) 0.008 0.093 0.058 0.069 0.268

клубах по интересам

Общая «объясняющая сила фактора»- % 25,4 19,8 16,5 12,7 6, 6

Анализ факторной матрицы начнем с указания на то, что данный факторный анализ (блока переменных из 26 ранговых признаков) рассчитывается с поворотом осей матрицы, с так называемым вращением факторов. По причине недостатка места на таблице (пять вращенных факторов достаточно редкий случай), мы не смогли расположить на ней факторные веса всех факторов до вращения. Отметим, что их факторные (особенно первого фактора) веса в целом соответствуют частотным распределениям признака и соответствующим коэффициентам корреляции при расчете корреляционных взаимосвязей каждого признака с каждым. Число рассчитываемых факторов задается в конкретной задаче на обработку. Автоматически, программы расчета не определяют необходимое число факторов при расчете. Мы уже указывали, что статистика не решает содержательные задачи. Это, как и в большинстве других многомерных процедур, задача социолога. Для получения интерпретируемого результата необходимо путем перебора числа факторов, начиная с двух, рассмотреть все получаемые матрицы в поисках значимого результата. Так что данная факторная матрица была получена только на пятой итерации. Но зато результат можно признать классическим.

Мы выделили жирным курсивом в каждом факторе веса самые близкие друг к другу и получили следующую типологизацию, отражающую не просто внепроизводственную деятельность «советского человека» средины 80-х годов прошлого века, а своеобразный «образ жизни».

Итак, указанные 5 факторов состоят, в порядке ближайших удельных весов (в сокращенном варианте ответов):

I. пребывание в кругу семьи, просмотр TV, сад и огород, прием гостей, кройка шитье;

II. ремонт дома, занятие техническим творчеством и поделками, прослушивание магнитофонных записей, чтение технической литературы, охота и рыбалка;

III. чтение художественной литературы, выполнение общественных поручений, самообразование, собирание книг, занятие физкультурой и спортом, решение кроссвордов;

IV. встречи с любимым человеком, вечера отдыха, посещение театров, участие в художественной самодеятельности;

V. полежать, посидеть ничего не делая, «распить рюмочку», посещение ресторанов, встречи с друзьями,

Даже делая скидку для современного студента, для которого некоторые понятия, приведенные здесь необходимо «расшифровать», в приведенных факторах все же очень четко видны типажи по способу организации и проведения досуга. С некоторой долей метафоричности их можно определить следующим образом: I. «домосед», II. «хозяйственно-технический», III. «общественно-молодежный», IV. «влюблено-молодежный», VI. «расслабляющийся». Как следует из приведенных факторных весов, в целом, они почти полностью (81% - объясняющая сила факторов) исчерпывают вариации исследуемой совокупности признаков. Укажем также, что отрицательные коэффициенты содержательного (т.е. положительного или отрицательного значения) не имеют и ими можно пренебречь.

ВОПРОСЫ ДЛЯ ЗАКРЕПЛЕНИЯ МАТЕРИАЛА

  1. Роль и значение статистики и статистических процедур в извлечении содержательной информации ид данных социологического исследования.

  2. Взаимосвязь статистики и проблем интерпретации данных социологического исследования.

  3. Понятие корреляционного анализа. Основные показатели и элементы. Логика взаимосвязи признаков в корреляционном анализе.

  4. «Идея» подхода к оценке взаимосвязи переменных и характер корреляционной зависимости в группе признаков.

  5. Особенности канонической корреляции.

  6. Понятие таксономических процедур и особенности их использования для классификации социальных объектов.

  7. Факторный анализ. Его виды и особенности использования для моделирования социальных процессов.

  8. В чем заключаются особенности латентно-структурного анализа данных?

  9. Кластерный анализ как метод многомерной классификации данных. Особенности и основной вопрос классификации.

  1. Основные меры классификации в кластерном анализе.

  1. Регрессионный анализ и причинно-следственные отношения признаков.

  1. Регрессионный анализ как метод усреднения.

  1. Понятие дисперсионного анализа и специфика его применения.

  1. Факторный анализ. Понятие и содержание факторов. Значение факторного «веса» признаков.

  1. В чем заключается сущность снижения размерности описания социального явления и специфика «факторизации» группы однородных признаков?

ЛИТЕРАТУРА ДЛЯ ДОПОЛНИТЕЛЬНОГО ЧТЕНИЯ

1. Аргунова К.Д. Качественный регрессионный анализ в социологии.

Методическое пособие. М., 1990.

2. Аргунова К.Д. Взаимодействие признаков в регрессивных моделях //

Социологические исследования. 1987. № 2.

3. Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ. М., 1982.

4. Гласе Дж., Стенли Дж. Статистические методы в педагогике и психологии. М., 1976.

5. Анализ нечисловой информации в социологических исследованиях. М., 1985.

6. Бартоломью Д. Статистические модели социальных процессов. М., 1985.

7. Гуттман Л. Основы шкалограммного анализа // Математические методы

в современной буржуазной социологии. М., 1979.

8. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, .рас­ познавание образов. М., 1977.

9. Интерпретация и анализ данных в социологических исследованиях. М., 1987.

10. Математика в социологии: Моделирование обработка информации/Ред. А. Аганбегян, "X. Блейлок, Ф. Бородкин, У. Будон, В. Капекки. М., 1977.

11. Математические методы в социальных науках/Под ред. П. Лазарсфельда и Н. Генри. М., 1973.

12. Математические методы анализа и интерпретация социологических данных. М., 1989.

13. Математическое моделирование в социологии (методы и задачи)/ Отв. ред. Ф.М. Бородкин, В.Г. Миркин. М., 1977.

14. Рабочая книга социолога. М., 1983. Гл. 5.

15. Статистические методы анализа информации в cоциологических исследованиях. М., 1979.

16. Типология и классификация в социологических исследованиях. М., 1982.

17. Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.:

Финансы и статистика, 1989.

18. Типология и классификация в социологических исследованиях. М.,1982.

19. Факторный, дискриминантный и кластерный анализ. М., 1989.