- •Что такое статистика. Предмет. Цели. Составные части.
- •Классификация признаков.
- •Абсолютные и относительные показатели.
- •Способы формирования выборок.
- •План статистического наблюдения.
- •Виды статистического наблюдения:
- •Степенные средние.
- •5 Базовых показателей вариационного ряда.
- •Мода и медиана.
- •Квартили и квинтили.
- •Децили и перцентили.
- •Основные показатели изменчивости.
- •Простое и взвешенное стандартное отклонение (для выборки и гс).
- •Дисперсия.
- •Относительные показатели изменчивости
- •Основные параметры нормального распределения.
- •Асимметрия.
- •Эксцесс.
- •Классификация гипотез.
- •Понятие и классификация критериев проверки гипотез.
- •Критерий Розенбаума.
- •Правила ранжирования
- •Алгоритм 4 Подсчет критерия u Манна-Уитни.
- •Критерий χ2 Пирсона.
- •Корреляция: цели, виды.
- •Надежность коэффициента корреляции.
- •Регрессия: цели, виды
- •Регрессия: ошибка выбранной математической модели.
- •Множественная регрессия.
- •Факторный анализ: цели, этапы
- •1 Этап: Построение матрицы попарных корреляций
- •Кластерный анализ: цели, Евклидово расстояние.
- •Кластерный анализ: методы объединения объектов.
- •Кластерный анализ: стандартизация.
- •Основные характеристики кластеров.
- •Дисперсионный анализ: цели, классификация.
- •Однофакторый дисперсионный анализ: основные формулы, область применения.
Факторный анализ: цели, этапы
Совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.
Цели Факторного анализа:
сокращение числа переменных
(data reduction)
2) определение структуры взаимосвязей между переменными (classify data)
Факторный анализ не требует априорного разделения признаков на зависимые и независимые, так как все признаки рассматриваются как равноправные.
Под фактором понимается гипотетическая, непосредственно не измеряемая, латентная (скрытая) переменная, которая имеет линейные корреляционные связи с исходными измеряемыми переменными.
ОГРАНИЧЕНИЕ: используемые в ФА признаки должны быть количественными.
1 Этап: Построение матрицы попарных корреляций
Вычисление коэффициентов корреляции Пирсона предполагает, что каждый из анализируемых количественных признаков, подчиняется нормальному закону.
Этап 2: Выделение факторов -Метод главных компонент (МГК)
осуществляет переход к новой системе координат F1,..., Fp в исходном пространстве признаков X1,..., Xk
От полной дисперсии
Идея МГК:
Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая ГК F1(х) обладает наибольшей дисперсией.
Геометрически - это ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве признаков X1,…,Xk .
Вторая ГК имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой.
Этап 3: Вращение матрицы факторных нагрузок
Поиск такого положения системы координат, которое для каждой строки (столбца) увеличивало бы большие факторные нагрузки и уменьшало бы малые.
Суть: максимизация дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее
Методы вращения матрицы факторных нагрузок:
Варимакс (Varimax) – для столбцов – минимизируется число переменных
Квартимакс (Quartimax) – для строк – минимизирует число факторов
Эквамакс (Equamax) – комбинация методов Варимакс и Квартимакс
Процедура ФА:
Расчет корреляционной матрицы;
2) Вычисление матрицы факторных нагрузок по соответствующим собственным векторам корреляционной матрицы;
3) Ортогональное вращение матрицы факторов;
4) Определение признаков, объединившихся в каждом факторе.
Всегда старайтесь дать наименование фактору!
Объекту с большим значением факторного веса присуща большая степень проявления свойств, определяемых данным фактором
Что дает ФА?
Объединяет связанные исходные признаки в подгруппы
Позволяет более наглядно представить взаимное расположение имеющихся подгрупп наблюдений
Кластерный анализ: цели, Евклидово расстояние.
Разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Критерий для определения схожести и различия кластеров - расстояние между точками на диаграмме рассеивания.
Цели кластеризации:
Понимание данных (Каждому кластеру – свой метод анализа)
Сжатие данных (Один типичный представитель от каждого кластера)
Novelty Detection (Выделение нетипичных объектов)
Мера расстояния между кластерами – Евклидово расстояние
Расстояние между 2 точками в 2-мерном пространстве:
Расстояние между 2 точками в 3-мерном пространстве