Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
statistika.doc
Скачиваний:
4
Добавлен:
23.09.2019
Размер:
759.81 Кб
Скачать

34.Множественная корреляция

Корреляция – мера зависимости переменных. Сила взаимосвязи данных.

Меры тесноты парной связи: Коэф-т Пирсона, Спирмена, Фехнера.

Множественная корреляция.

Использование метода множественной корреляции позволяет обнаружить объедин. эффект. влияния всех независимых переменных к зависимой.

Корреляционный анализ показывает тесноту связи, только если связь линейная.

Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R².

Корреляционное отношение

степень аппроксимации

R² коэфф.детерминации,указывает, какая доля вариации результативного признака объясняется влиянием всех X – переменных.

35. Регрессия – это предсказание значения одного признака на основе значения другого. Регрессионный анализ проводится при наличии корреляционной связи между признаками.

Оценка ошибки выбранной математической модели.

y – эмпирическое значение, y* - теоретическое значение, p – число параметров уравнения.

Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R².

Корреляционное отношение

с тепень аппроксимации

36. 37.Парная линейная рег-я: Y = Сдвиг + Наклон * X; Y = a + b*X

Параметры уравнения парной линейной регрессии вычисляются с помощью метода наименьших квадратов.

Сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть мин. Параметры линейной регрессии находятся из системы:

Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R².

Корреляционное отношение

степень аппроксимации

Вид кривой неизвестен

Оценка кривой:

Пораболическая связь Y = a + b*x + с*х2

Экспоненциальная связьY = a*ebx

Гиперболическая связь Y = a + b/x

R²-коэфф.детерминации,указывает,какая доля вариации результативного признака объясняется влиянием всех X – переменных.Чем > коэф детерминации R², та прямая лучше описывает, если <0,5, то нет такой прямой. Чем >степень ф-ции, тем лучше она описывает эмпирику.

Если разница между коэф-ом детерминации < 0,05, то нет смысла брать ф-цию более старшего порядка.

38.Множественная регрессия.

Регрессия – это предсказание значения одного признака на основе значения другого. Регрессионный анализ проводится при наличии корреляционной связи между признаками.

Парная линейная рег-я: Y = Сдвиг + Наклон * X; Y = a + b*X

Вид кривой неизвестен

Пораболическая связь Y = a + b*x + с*х2

Экспоненциальная связьY = a ebx

Гиперболическая связь Y = a + b/x

R² указывает, какая доля вариации результативного признака объясняется влиянием всех X – переменных.Чем > коэф детерминации R², та прямая лучше описывает, если <0,5, то нет такой прямой. Чем >степень ф-ции, тем лучше она описывает эмпирику.

Если разница между коэф-ом детерминации < 0,05, то нет смысла брать ф-цию более старшего порядка.

Множественная рег-я: Y = a + b1*X1 + b2*X2 + ... + bp*Xp

Если значение признака-результата зависят от нескольких факторов.Регрессионные коэффициенты (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной.

39.Факторный анализ- совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств..

Цели: 1)сокращение числа переменных; 2)определение структуры взаимосвязей между переменными.

Факторный анализ не требует априорного разделения признаков на зависимые и независимые.

Этапы: 1) построение матрицы попарных корреляций;

2) Выделение факторов-Метод главных компонент (МГК).

Идея МГК:

-линейные комбинации выбираются такие образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая Главная Компонента F1(х) обладает наиб.дисперсией.

-геометрически- это ориентация новой координатной оси F, вдоль направления наибольшей вытянутости эллипсоида, рассеивания объектов исследуемой выборки в пространстве признаков.

-вторая главная компонента имеет наиб.дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой Главной Компонентой.

3)Методы вращения факторных нагрузок.

Вращение матрицы факторных нагрузок - поиск такого положения системы координат, которое для каждой строки (столбца) увеличивало бы большие факторные нагрузки и уменьшало бы малые.

40.Кластерный анализ- это разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Цели:1)Понимание данных (Каждому кластеру – свой метод анализа); 2)Сжатие данных (Один типичный представитель от каждого кластера); 3)Novelty Detection (Выделение нетипичных объектов).

Евклидово расстояние – мера расстояния между кластерами.

Расст-е между точками в трёхмерном пр-ве

Основные характеристики кластеров.

Центр кластера - среднее геометрическое место точек в пространстве переменных. Радиус кластера - максимальное расстояние точек от центра кластера. Спорный объект - объект, который может быть отнесен к нескольким кластерам.

Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера.

Объект относится к кластеру, если расстояние от объекта до центра кластера не больше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным

Методы объединения объектов.

1)«Ближнего соседа» (Расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Позволяет выделять кластеры сложной формы при условии, что части таких кластеров соединены цепочками близких друг к другу элементов).

2)«Дальнего соседа» (Расстояние между двумя кластерами определяется расстоянием между двумя наиболее далекими объектами в различных кластерах. Хорошо использовать, когда объекты действительно происходят из различных "рощ") 3)Центроидный

4)Варда (В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения. Применим для малых выборок. Объединение близко расположенных кластеров и "стремление" создавать кластеры малого размера).

5)Невзвешенного попарного среднего 6)Взвешенного попарного среднего.

Основной метод разделения на кластеры. Последовательное объединение меньших кластеров в большие или разделение больших кластеров на меньшие.

-агломеративные методы -последоват. объедин. объектов

-девизионные методы

41.Дисперсионный анализ- параметрический метод для проверки значимости различий, применяемый, когда нас интересуют сравнение двух и более выборок.

Для выяснения являются ли различия между выборками достаточно большими для того, чтобы отвергнуть нулевую гипотезу, сравниваем изменчивость между категориями с изменчивостью внутри категории:

Измен. между категориями>измен. внутри→отвергаем Н0

H0 : μ1 = μ2 = μ3 = … = μk H1 : μi ≠ μj (по крайней мере для 1 пары ГС)

Критерий:

Межгрупповая вариация: отражает, насколько различаются выборочные средние

Внутригрупповая вариация измеряет насколько неоднородна каждая выборка.

Вывод:

Если Fэмп < Fкр => Н0 Наблюдаемые расхождения в значениях выборочных средних можно объяснить случайностью!

Если Fэмп ≥ Fкр => Н1 Наблюдаемые расхождения в значениях выборочных средних нельзя объяснить лишь случайностью!

Виды дисперсионного анализа: 1)сколько факторов принимает участие в исследовании (одно - , многофакторный), 2)сколько переменных подвержены действию факторов (одно, многомерный), 3)как соотносятся друг с другом выборки зн

ачений (связанных, несвязанных выборок).

42. Связь между качественными признаками

Н0: мнение о кризисе не зависит от пола

Н1: пол влияет на отношение к кризису (предположение об отсутствии различий)

Коэффициент ассоциации:

A

B

A+B

C

D

C+D

A+C

B+D

A+B+C+D

а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков

Kaс.кр=|0.5|. Если Kaс>Ккр –то подтв.гипотеза Н1, если наоборот-Н0.

Коэффициент контингенции:

Если Kk>=0.3 подтверждается гип.Н1, если наоборот-Н0.

для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации. |Ka|>=Kk

Эти коэф-ты используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности Пирсона (КП ).

Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:

Признаки

А1

В1

С1

Итого

D2

F11

F12

F13

∑f1j

E2

F21

F22

F23

∑f2j

F2

F31

F32

F33

∑f3j

Итого

∑fi1

∑fi2

∑fi3

F11-кол-во обхъектов,кот хар.1 знач 1-го признака и 1 знач.2-го признака

F12- кол-во объектов,кот хар. 1 знач. 1 признака и 2…

A1, B1, C1-значения 1-го признака

∑f1j-сумма всех объектов, кот.хар.1 знач. 2-го признака

-1,

- показатель средней квадратической сопряженности:

Коэффициент взаимной сопряженности изменяется от 0 до 1.

Коэффициент сопряженности Чупрова

N1-число вариантов значений первого признака

N2-число вариантов знач.2-го признака

Коэффициент Фехнера-характеризует элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации.

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений.

Коэффициент Фехнера может изменяться в пределах -1,0 <=Кф <= +1,0.

Ранговые коэффициенты корреляции - в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков.

где d = Nx - Ny , т.е. разность рангов каждой пары значений х и у; n - число наблюдений.

Чем теснее связь, тем она ближе к 1.

43.Динамический ряд

значения статистических показателей, которые представлены в определенной хронологической последовательности. Элементы ряда: по оси у- показатели, кот харак-ют исследуемый объект, по х-показатели периодов времени (месяц, год, декада).

Виды динамических рядов

- моментный ряд отражает значения показателей на определенный момент времени

- интервальный ряд содержит значения показателей за определенные периоды времени. В интервальном ряду уровни можно суммировать, получая накопленные итоги.

Цели анализа динамических рядов (анализа изменений во времени):

-Прогнозирование тенденций, предсказание значений;

-Оценка эффективности существующих методов управления, оценка текущего состояния;

-Исследование социально-экономических явлений.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]