Основные этапы ка:
Отбор выборки для кластеризации (выборка д.б. статистическая и гетерогенная)
Определение признаков по которым будут оцениваться О-ты выборки ( не опирается на предложение о нормальном распределении О-в).
Вычисление значений меры сходства или различий между О-ми
Применение конкретного метода кластерного анализа для построения классификации
Проверка достоверности результатов классификации.
Проблемы использования метода КА:
Методы КА как правило не имеют достаточного статистического обоснования
Методы КА разрабатывались для многих научных дисциплин: биология, антропология, психология и поэтому несут на себе отпечатки специфики этих дисциплин.
Разные методы классификации могут порождать различные решения для одних и тех же данных
Целью КА является поиск существующих структур. В то же время его действие состоит в привлечении в анализируемые данные. И эта структура может не совпадать с искомой (реальной)
Причинно-следственный анализ данных
Причинно-следственные отношения – это связь явлений и процессов, когда изменение одной из причин, ведет к изменению другого явления (процесса) следствия.
Изучение причинно-следственных связей должно удовлетворять 2-м целям:
Объяснение (трактовка дисперсии зависимой переменной с позиций независимых переменных)
Прогнозирование (предсказание значения зависимой переменной, по значениям независимой переменной)
Множественная линейная регрессия
Для того чтобы построить регрессионное уравнение между аргументом и функцией должна присутствовать сильная корреляционная связь (коэффициент Пирсона).
Уравнение парной линейной регрессии
Y=Bo+Bx
Пример парной линейной регрессии
У= -18331+3909х (мы изучаем влияние уровня образования на з.п.)
При увеличении образования на 1 год, средняя з.п. повысится на 3909 рубля.
Уравнение множественной линейной регрессии
У= Bo+B1X1+B2X2+….BnXn
Пример множественной линейной регрессии
Доход предприятия одновременно зависит от 2-х факторов: числа рабочих и энерговооруженности
У = 88525 + 2752Х1 (рабочие) + 93Х2 (мощность двигателя)
При увеличении числа рабочих на 1 чел. в среднем приводит к повышению объема производства на 2752 рубля, при условии, что мощность двигателя не меняется.
Увеличение суммарной мощности двигателя на 1 л. Силу приведет в среднем к повышению объема продаж на 93 рубля, при условии что число рабочих не измениться.
Одна из наиболее часто встречающихся проблем припроведении множемтвенного регрессионного анализа - это явление мультиколлинеарности (ситуация когда между независимыми переменными (аргументами) наблюдается сильная корреляционная связь).
Способы решения явления мультиколлинеарности:
Можно объединить несколько сильно коррелирующих переменных в одну (для этого используют ФА)
Можно удалить те независимые переменные с которыми фиксируется сильная связь
Можно оставить все исходные переменные в уравнении, однако оценивать значимость их совокупного влияния нужно относительно.
Собрать больше исходных данных (чем больше выборка, тем меньше явления мультиколлинеарности).
Классификация с обучением применяется в двух случаях:1) точно известно кол-во классов и их типичные представителей; 2) у социологов есть теор. Представление об идеальных типах и о том как должны себя вести отдельные представители.. Харак. Наличием обучающей выборки.
Дискриминантный анализ – метод многомерного анализа соц. информации, позволяющий изучить различия между несколькими группами, классами О по некоторому набору переменных и одновременно классифицирует новые объекты, для которых класс не был первоначально определён.
Цель ДА: 1) интерпретация; 2) классификация
Переменные, применяемые для того, чтобы отличить один класс от другого наз. дискриминантными переменными.
Модель ДА основывается на мат. допущениях: 1) объекты должны принадлежать одному из двух или более классов. Число классов должно быть больше либо равно двум. 2) в каждом классе 2 объекта. 3) может быть любое число дискриминантных переменных . Они не превосходят общее число О минус 2. 4) изменение дискрим. перем. осуществ. по интервальной шкале или ш отношений. 5)осуществляться линейная независимость диск пер. 6) приблизит равенство между ковариационными матрицами для каждого класса.