Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Билеты_статистика (1).doc
Скачиваний:
7
Добавлен:
21.09.2019
Размер:
2 Mб
Скачать
      1. Корреляционное отношение

Коэффициенты корреляции пригодны в большей для оценки линейной зависимости между изучаемыми признаками. Если связь нелинейная, то следует отдать предпочтение показателю, который называется корреляционное отношение. Оно может быть:

  • Эмпирическое (т.е. рассчитанное по данным аналитической группировки).

  • Теоретическое (т.е. рассчитанное по результатам регрессионного анализа).

- эмпирическое

- теоретическое

- выровненное или полученное по уравнению регрессии значение признака-результата у i-ой единицы теоретическое значение признака-результата.

yi – исходные данные.

Корреляционное отношение изменяется также от нуля до единицы и комментируется аналогично коэффициенту корреляции.

Квадрат корреляционного отношения ( )- коэффициент детерминации.

      1. Индекс корреляции

Индекс корреляции рассчитывается по следующей формуле:

  1. Задачи корреляционно-регрессионного анализа, условия его применения. Ошибка выбранной модели.

При использовании методов корреляционно-регрессионного анализа можно выделить три группы решаемых практических задач.

  1. Задачи, связанные с установлением наличия или отсутствия корреляционной зависимости. Решение этих задач предполагает расчет показателей корреляции.

  2. Группа задач диктуется желанием управлять тем или иным объектом, или признаком через воздействие на факторы его определяющие. При этом строиться уравнение связи, называемое регрессионным, и производится ранжирование факторов по степени их влияния на результат.

  3. Прогнозирование изменения того или иного явления или признака в условиях изменения соответствующих признаков-факторов. В основе решения данных задач лежат уравнения регрессии, которые в данном случае не являются самоцелью. Основное – это расчет прогнозируемых значений результативного признака с расчетом доверительных интервалов и указанием уровня доверительной вероятности.

Для решения всех задач используют методы корреляции и регрессии, но так как у них много общих вычислительных процедур, то принято говорить о корреляционно-регрессионном анализе.

Условия применения методов корреляционно-регрессионного анализа

  1. Наличие статистической совокупности достаточно большого объема. Объем совокупности должен превышать в 5-6 раз (идеально в10 раз) число факторов, включенных в анализ.

  2. Изучаемая совокупность должна быть однородна.

  3. Независимость наблюдений и отсутствие мультиколлинеальности факторов.

  4. Признаки, участвующие в анализе должны иметь количественное выражение.

  5. Распределение единиц совокупности должно соответствовать нормальному закону распределения.

36, 37 Парная линейная регрессия. Коэффициенты регрессии, их интерпретация.

Расчет параметров уравнения регрессии. Метод наименьших квадратов

Простейшим видом уравнения регрессии является парная линейная зависимость.

где y – зависимая переменная (признак-результат),

x – независимая переменная (признак-фактор).

В качестве уравнения регрессии могут быть выбраны различные математические функции: чаще всего исследуется линейная зависимость, парабола, гипербола, степная функция. Но исследование начинается с линейной зависимости, так как результаты поддаются содержательной интерпретации.

При нанесении на поле корреляции точек, координаты которых соответствуют значениям зависимых и независимых переменных выявляется тенденция связи между ними.

Смысл построения уравнения регрессии состоит в описании тенденции зависимости признака-результата от признака-фактора.

Если линия регрессии проходит через все точки поля корреляции, то эта функциональная связь. Так как всегда присутствует ошибка, поэтому нет функциональной связи.

Наличие ошибки связано с тем что:

  • не все факторы, влияющие на результат, учитываются в уравнении регрессии;

  • может быть неправильно выбрано уравнение регрессии или форма связи.

Уравнение регрессии описывает изменения условного среднего значения признака-результата под влиянием конкретных значений признака-фактора, то есть это аналитическая форма тенденции зависимости между изучаемыми признаками. Уравнение регрессии строится на основе фактических значений признаков, и для его использования нужно рассчитать параметры уравнения а и b. Определение значений параметров, как правило, выполняется с использованием методов наименьших квадратов (МНК).

Суть метода состоит в том, что удается минимизировать сумму квадратов отклонений фактических значений признака-результата от теоретических, рассчитанных на основе уравнения регрессии, что оценивает степень аппроксимации поля корреляции уравнением регрессии.

Задача состоит в решении задачи на экстремум, то есть найти при каких значениях параметров а и в функции S достигает минимума.

Проводя дифференцирование, приравниваем частные производные к нулю и , получаем систему уравнений. Решая ее, находим значения параметров а и в.

Параметр в в уравнении регрессии называется коэффициентом регрессии и характеризует на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии характеризует направленность зависимости (прямая или обратная). Параметр а в уравнении регрессии содержательно не интерпретируется, а характеризует лишь расположение линии на графике.

Пример.

Данное уравнение показывает тенденцию зависимости заработной платы (у) от прожиточного минимума (х). Коэффициент в (в данном случае равный 0,92) характеризует следующее: при увеличении на 1 рубль потребительской корзины заработная плата возрастает на 92 копейки

38. Множественная регрессия.

Уравнение множественной регрессии – аналитическая форма зависимости признака-результата от двух или более признаков-факторов.

в - коэффициент регрессии

В уравнении множественной регрессии их называют условно чистыми коэффициентами. Их можно назвать чистыми коэффициентами, если бы в уравнении регрессии удалось включить все факторы определяющие результат..

Это невозможно пор нескольким причинам:

  • Ограниченный объем совокупности (число факторов должно 5-6 раз, идеально в 10 раз, меньше объема совокупности).

  • Не по всем факторам имеются данные.

  • Не все факторы имеют количественную оценку.

  • Не знаем о факторах, которые реально влияют на результат.

Интерпретация коэффициентов множественной регрессии аналогична интерпретации коэффициентов парной регрессии.

Коэффициент регрессии во множественном уравнении регрессии не равен коэффициенту регрессии в парном уравнении регрессии (при оценке влияния одного итого же фактора), так как в уравнении множественной регрессии величина коэффициента рассчитывается в условиях элиминирования влияния ряда факторов, включенных в уравнение.

39. Факторный анализ: этапы, идея МГК.

Совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.

Цели Факторного анализа

1)сокращение числа переменных (data reduction)

2) определение структуры взаимосвязей между переменными (classify data)

1 этап: Построение матрицы попарных корреляций

2 этап : Выделение факторов -Метод главных компонент (МГК)

3 этап: Вращение матрицы факторных нагрузок

Варимакс (Varimax) – для столбцов – минимизируется число переменных

Квартимакс (Quartimax) – для строк – минимизирует число факторов

Эквамакс (Equamax) – комбинация методов Варимакс и Квартимакс

  1. Кластерный анализ. Характеристики кластера, методы объединения объектов.

Разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Цели кластеризации

  • Понимание данных (Каждому кластеру – свой метод анализа)

  • Сжатие данных (Один типичный представитель от каждого кластера)

  • Novelty Detection (Выделение нетипичных объектов)

Мера расстояния между кластерами – Евклидово расстояние

Методы объединения объектов в кластеры

  • «Ближнего соседа»

  • «Дальнего соседа»

  • Центроидный

  • Варда

  • Невзвешенного попарного среднего

Взвешенного попарного среднего

Характеристики кластера

  • Центр кластера - среднее геометрическое место точек в пространстве переменных.

  • Радиус кластера - максимальное расстояние точек от центра кластера.

  • Спорный объект - объект, который может быть отнесен к нескольким кластерам.

  • Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера.

  • Объект относится к кластеру, если расстояние от объекта до центра кластера не больше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]