Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ММСИ ШПОРЫ.docx
Скачиваний:
1
Добавлен:
26.09.2019
Размер:
35.05 Кб
Скачать

Основные этапы ка:

  1. Отбор выборки для кластеризации (выборка д.б. статистическая и гетерогенная)

  2. Определение признаков по которым будут оцениваться О-ты выборки ( не опирается на предложение о нормальном распределении О-в).

  3. Вычисление значений меры сходства или различий между О-ми

  4. Применение конкретного метода кластерного анализа для построения классификации

  5. Проверка достоверности результатов классификации.

Проблемы использования метода КА:

  1. Методы КА как правило не имеют достаточного статистического обоснования

  2. Методы КА разрабатывались для многих научных дисциплин: биология, антропология, психология и поэтому несут на себе отпечатки специфики этих дисциплин.

  3. Разные методы классификации могут порождать различные решения для одних и тех же данных

  4. Целью КА является поиск существующих структур. В то же время его действие состоит в привлечении в анализируемые данные. И эта структура может не совпадать с искомой (реальной)

Причинно-следственный анализ данных

Причинно-следственные отношения – это связь явлений и процессов, когда изменение одной из причин, ведет к изменению другого явления (процесса) следствия.

Изучение причинно-следственных связей должно удовлетворять 2-м целям:

  1. Объяснение (трактовка дисперсии зависимой переменной с позиций независимых переменных)

  2. Прогнозирование (предсказание значения зависимой переменной, по значениям независимой переменной)

Множественная линейная регрессия

Для того чтобы построить регрессионное уравнение между аргументом и функцией должна присутствовать сильная корреляционная связь (коэффициент Пирсона).

Уравнение парной линейной регрессии

Y=Bo+Bx

Пример парной линейной регрессии

У= -18331+3909х (мы изучаем влияние уровня образования на з.п.)

При увеличении образования на 1 год, средняя з.п. повысится на 3909 рубля.

Уравнение множественной линейной регрессии

У= Bo+B1X1+B2X2+….BnXn

Пример множественной линейной регрессии

Доход предприятия одновременно зависит от 2-х факторов: числа рабочих и энерговооруженности

У = 88525 + 2752Х1 (рабочие) + 93Х2 (мощность двигателя)

При увеличении числа рабочих на 1 чел. в среднем приводит к повышению объема производства на 2752 рубля, при условии, что мощность двигателя не меняется.

Увеличение суммарной мощности двигателя на 1 л. Силу приведет в среднем к повышению объема продаж на 93 рубля, при условии что число рабочих не измениться.

Одна из наиболее часто встречающихся проблем припроведении множемтвенного регрессионного анализа - это явление мультиколлинеарности (ситуация когда между независимыми переменными (аргументами) наблюдается сильная корреляционная связь).

Способы решения явления мультиколлинеарности:

  1. Можно объединить несколько сильно коррелирующих переменных в одну (для этого используют ФА)

  2. Можно удалить те независимые переменные с которыми фиксируется сильная связь

  3. Можно оставить все исходные переменные в уравнении, однако оценивать значимость их совокупного влияния нужно относительно.

  4. Собрать больше исходных данных (чем больше выборка, тем меньше явления мультиколлинеарности).

Классификация с обучением применяется в двух случаях:1) точно известно кол-во классов и их типичные представителей; 2) у социологов есть теор. Представление об идеальных типах и о том как должны себя вести отдельные представители.. Харак. Наличием обучающей выборки.

Дискриминантный анализ – метод многомерного анализа соц. информации, позволяющий изучить различия между несколькими группами, классами О по некоторому набору переменных и одновременно классифицирует новые объекты, для которых класс не был первоначально определён.

Цель ДА: 1) интерпретация; 2) классификация

Переменные, применяемые для того, чтобы отличить один класс от другого наз. дискриминантными переменными.

Модель ДА основывается на мат. допущениях: 1) объекты должны принадлежать одному из двух или более классов. Число классов должно быть больше либо равно двум. 2) в каждом классе 2 объекта. 3) может быть любое число дискриминантных переменных . Они не превосходят общее число О минус 2. 4) изменение дискрим. перем. осуществ. по интервальной шкале или ш отношений. 5)осуществляться линейная независимость диск пер. 6) приблизит равенство между ковариационными матрицами для каждого класса.