- •Контрольные вопросы
- •Понятие, предмет, задачи статистики.
- •Основные этапы статистического анализа.
- •Ошибки и контроль данных при статистическом наблюдении
- •Группировка в рамках статистического исследования, статистическое представление информации.
- •Понятие вариации, вариационного ряда, показатели вариации
- •Среднее линейное отклонение
- •3. Дисперсия
- •4. Среднее квадратическое (стандартное) отклонение
- •Виды вариационных рядов.
- •1.4.1 Средняя арифметическая простая
- •1.4.2 Средняя арифметическая взвешенная
- •1.4.3 Средняя гармоническая
- •1.4.4 Средняя геометрическая
- •1.4.5 Средняя квадратическая
- •15, 13, 16 Ряды распределения, вариационные ряды, правила их построения.
- •17., 18 Характеристики центра, структуры распределения.
- •Задача сглаживания эмпирического распределения, критерии согласия.
- •Малая выборка: понятие, особенности проверки гипотез
- •Функционально (жестко-детерминированная) связь
- •2) Статистические связи и зависимости (стохастически детерминированная).
- •Показатели тесноты парной связи. Множественная корреляция
- •Коэффициент корреляции
- •Коэффициент детерминации
- •Корреляционное отношение
- •Индекс корреляции
- •Дисперсионный анализ.
- •Цели изучения динамических рядов, их виды, элементы динамического ряда.
- •Компоненты временного ряда.
- •Сглаживание рядов динамики: механическое, аналитическое.
- •Понятие тренда, критерии выбора вида трендовой модели. Оценка качества выбранного тренда.
- •Анализ сезонности в рядах динамики.
- •Абсолютный прирост
- •1. Абсолютный цепной прирост
- •2. Абсолютный прирост базисный
- •Темп роста (коэффициент роста)
- •Темп прироста
- •Абсолютное значение 1% прироста
- •Контроль качества: формы, виды, логика принятия решения о качестве процесса.
- •Статистические индексы, задачи, решаемые с помощью индексного анализа.
- •Индексы общие и индивидуальные. Агрегатный индекс как основная форма индексов.
- •1) Индивидуальные (I)
- •2) Общие индексы (сводные, I)
- •Индексы средние из индивидуальных.
- •Способы расчета индексов.
- •Система показателей статистики цен. Индекс потребительских цен.
- •Индексы Ласпейреса и Пааше.
- •Характеристики уровня жизни населения.
- •Показатели денежных доходов.
- •Показатели дифференциации.
- •Статистические показатели потребления населением материальных благ и услуг.
- •Система статистических показателей инфляции.
- •Статистика населения и занятости.
- •Анализ естественного движения и миграции населения.
- •Индекс развития человеческого потенциала.
Корреляционное отношение
Коэффициенты корреляции пригодны в большей для оценки линейной зависимости между изучаемыми признаками. Если связь нелинейная, то следует отдать предпочтение показателю, который называется корреляционное отношение. Оно может быть:
Эмпирическое (т.е. рассчитанное по данным аналитической группировки).
Теоретическое (т.е. рассчитанное по результатам регрессионного анализа).
- эмпирическое
- теоретическое
- выровненное или полученное по уравнению регрессии значение признака-результата у i-ой единицы теоретическое значение признака-результата.
yi – исходные данные.
Корреляционное отношение изменяется также от нуля до единицы и комментируется аналогично коэффициенту корреляции.
Квадрат корреляционного отношения ( )- коэффициент детерминации.
Индекс корреляции
Индекс корреляции рассчитывается по следующей формуле:
Задачи корреляционно-регрессионного анализа, условия его применения. Ошибка выбранной модели.
При использовании методов корреляционно-регрессионного анализа можно выделить три группы решаемых практических задач.
Задачи, связанные с установлением наличия или отсутствия корреляционной зависимости. Решение этих задач предполагает расчет показателей корреляции.
Группа задач диктуется желанием управлять тем или иным объектом, или признаком через воздействие на факторы его определяющие. При этом строиться уравнение связи, называемое регрессионным, и производится ранжирование факторов по степени их влияния на результат.
Прогнозирование изменения того или иного явления или признака в условиях изменения соответствующих признаков-факторов. В основе решения данных задач лежат уравнения регрессии, которые в данном случае не являются самоцелью. Основное – это расчет прогнозируемых значений результативного признака с расчетом доверительных интервалов и указанием уровня доверительной вероятности.
Для решения всех задач используют методы корреляции и регрессии, но так как у них много общих вычислительных процедур, то принято говорить о корреляционно-регрессионном анализе.
Условия применения методов корреляционно-регрессионного анализа
Наличие статистической совокупности достаточно большого объема. Объем совокупности должен превышать в 5-6 раз (идеально в10 раз) число факторов, включенных в анализ.
Изучаемая совокупность должна быть однородна.
Независимость наблюдений и отсутствие мультиколлинеальности факторов.
Признаки, участвующие в анализе должны иметь количественное выражение.
Распределение единиц совокупности должно соответствовать нормальному закону распределения.
36, 37 Парная линейная регрессия. Коэффициенты регрессии, их интерпретация.
Расчет параметров уравнения регрессии. Метод наименьших квадратов
Простейшим видом уравнения регрессии является парная линейная зависимость.
где y – зависимая переменная (признак-результат),
x – независимая переменная (признак-фактор).
В качестве уравнения регрессии могут быть выбраны различные математические функции: чаще всего исследуется линейная зависимость, парабола, гипербола, степная функция. Но исследование начинается с линейной зависимости, так как результаты поддаются содержательной интерпретации.
При нанесении на поле корреляции точек, координаты которых соответствуют значениям зависимых и независимых переменных выявляется тенденция связи между ними.
Смысл построения уравнения регрессии состоит в описании тенденции зависимости признака-результата от признака-фактора.
Если линия регрессии проходит через все точки поля корреляции, то эта функциональная связь. Так как всегда присутствует ошибка, поэтому нет функциональной связи.
Наличие ошибки связано с тем что:
не все факторы, влияющие на результат, учитываются в уравнении регрессии;
может быть неправильно выбрано уравнение регрессии или форма связи.
Уравнение регрессии описывает изменения условного среднего значения признака-результата под влиянием конкретных значений признака-фактора, то есть это аналитическая форма тенденции зависимости между изучаемыми признаками. Уравнение регрессии строится на основе фактических значений признаков, и для его использования нужно рассчитать параметры уравнения а и b. Определение значений параметров, как правило, выполняется с использованием методов наименьших квадратов (МНК).
Суть метода состоит в том, что удается минимизировать сумму квадратов отклонений фактических значений признака-результата от теоретических, рассчитанных на основе уравнения регрессии, что оценивает степень аппроксимации поля корреляции уравнением регрессии.
Задача состоит в решении задачи на экстремум, то есть найти при каких значениях параметров а и в функции S достигает минимума.
Проводя дифференцирование, приравниваем частные производные к нулю и , получаем систему уравнений. Решая ее, находим значения параметров а и в.
Параметр в в уравнении регрессии называется коэффициентом регрессии и характеризует на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии характеризует направленность зависимости (прямая или обратная). Параметр а в уравнении регрессии содержательно не интерпретируется, а характеризует лишь расположение линии на графике.
Пример.
Данное уравнение показывает тенденцию зависимости заработной платы (у) от прожиточного минимума (х). Коэффициент в (в данном случае равный 0,92) характеризует следующее: при увеличении на 1 рубль потребительской корзины заработная плата возрастает на 92 копейки
38. Множественная регрессия.
Уравнение множественной регрессии – аналитическая форма зависимости признака-результата от двух или более признаков-факторов.
в - коэффициент регрессии
В уравнении множественной регрессии их называют условно чистыми коэффициентами. Их можно назвать чистыми коэффициентами, если бы в уравнении регрессии удалось включить все факторы определяющие результат..
Это невозможно пор нескольким причинам:
Ограниченный объем совокупности (число факторов должно 5-6 раз, идеально в 10 раз, меньше объема совокупности).
Не по всем факторам имеются данные.
Не все факторы имеют количественную оценку.
Не знаем о факторах, которые реально влияют на результат.
Интерпретация коэффициентов множественной регрессии аналогична интерпретации коэффициентов парной регрессии.
Коэффициент регрессии во множественном уравнении регрессии не равен коэффициенту регрессии в парном уравнении регрессии (при оценке влияния одного итого же фактора), так как в уравнении множественной регрессии величина коэффициента рассчитывается в условиях элиминирования влияния ряда факторов, включенных в уравнение.
39. Факторный анализ: этапы, идея МГК.
Совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.
Цели Факторного анализа
1)сокращение числа переменных (data reduction)
2) определение структуры взаимосвязей между переменными (classify data)
1 этап: Построение матрицы попарных корреляций
2 этап : Выделение факторов -Метод главных компонент (МГК)
3 этап: Вращение матрицы факторных нагрузок
Варимакс (Varimax) – для столбцов – минимизируется число переменных
Квартимакс (Quartimax) – для строк – минимизирует число факторов
Эквамакс (Equamax) – комбинация методов Варимакс и Квартимакс
Кластерный анализ. Характеристики кластера, методы объединения объектов.
Разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Цели кластеризации
Понимание данных (Каждому кластеру – свой метод анализа)
Сжатие данных (Один типичный представитель от каждого кластера)
Novelty Detection (Выделение нетипичных объектов)
Мера расстояния между кластерами – Евклидово расстояние
Методы объединения объектов в кластеры
«Ближнего соседа»
«Дальнего соседа»
Центроидный
Варда
Невзвешенного попарного среднего
Взвешенного попарного среднего
Характеристики кластера
Центр кластера - среднее геометрическое место точек в пространстве переменных.
Радиус кластера - максимальное расстояние точек от центра кластера.
Спорный объект - объект, который может быть отнесен к нескольким кластерам.
Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера.
Объект относится к кластеру, если расстояние от объекта до центра кластера не больше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным.