- •1. Анализ пропущенных значений. Методы заполнения пропусков.
- •2. Непараметрические критерии различий двух выборок.
- •3. Графические и аналитические методы анализа.
- •4.Нормальный закон распределения и его значение для прикладной статистики.
- •6.Непараметрические критерии однородности двух выборок.
- •9. Метод кластеризации данных.
- •8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.
- •7.Множественный дисперсионный анализ
- •10. Стандартизация исходных данных
- •11. Основные понятия и алгоритмы кластерного анализа
- •12. Проверка гипотез о коэффициентах регрессии и коэффициентах корреляции
- •Дисперсионный анализ при оценке качества регрессии.
- •Основные возможности пакета Excel для анализа статистических данных.
- •Однофакторный дисперсионный анализ.
- •19. Корреляционный анализ. Парный коэффициент корреляции.
- •20.Основные задачи математической статистики
- •1. Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным
- •2. Задача проверки правдоподобия гипотез
- •3. Задача нахождения неизвестных параметров распределения
- •21. Критерий согласия распределения.
- •22. Основные понятия и алгоритмы кластерного анализа
- •23. Основные проверки статистических гипотез
- •24) Критерий Стьюдента (t-критерий) (проверка гипотез о равенстве средних).
- •27)Методы кластеризации данных
- •28. Параметрические и непараметрические методы.
10. Стандартизация исходных данных
Нормировка (стандартизация) данных
В кластерном анализе разбиение на кластеры существенно зависит от абсолютных значений исходных данных. Эту проблему решают с помощью нормировки (стандартизации). Для этого из всех значений по каждому фактору вычитают выборочное среднее этого фактора и полученные разности делят на среднее квадратическое отклонение.
где – исходное данное; – выборочное среднее;
– среднее квадратическое отклонение.
При этом стандартизованные значения будут иметь выборочные средние равные нулю, а выборочные дисперсии – равные единице. Другими словами, мы все факторы свели в одну весовую категорию, как боксеров перед соревнованиями. Для осуществления этой операции в пакете STATISTICA нужно вызвать модуль Data Management.
11. Основные понятия и алгоритмы кластерного анализа
Кластерный анализ –
совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях между ними
это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)
Основная цель кластерного анализа
Разбиение исходной совокупности объектов (ситуаций) на подмножества, на группы схожих, близких между собой объектов, называемых кластерами (таксонами), так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Сжатие данных - если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
Обнаружение новизны - выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
Основные задачи кластерного анализа
Разработка типологии или классификации.
Исследование полезных концептуальных схем группирования объектов.
Порождение гипотез на основе исследования данных.
Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных
Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам".
Метод кластерного анализа используется в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, а исследование находится в описательной стадии.
Кластерный анализ определяет "наиболее возможно значимое решение«,поэтому проверка статистической значимости в действительности здесь неприменима.
Этапы кластерного анализа:
Отбор выборки для кластеризации.
Определение множества переменных, по которым будут оцениваться объекты в выборке.
Вычисление значений той или иной меры сходства между объектами.
Применение метода кластерного анализа для создания групп сходных объектов.
Проверка достоверности результатов кластерного решения
Методы кластеризации:
К-средних
Графовые алгоритмы кластеризации
Статистические алгоритмы кластеризации
Алгоритмы семейства FOREL
Иерархическая кластеризация или таксономия
Нейронная сеть Кохенена
Ансамбль кластеризаторов
Алгоритмы семейства KRAB
EM – алгоритм
Алгоритм, основанный на методе просеивания
Иерархические алгоритмы
Первая опция представляет группу так называемых иерархических алгоритмов кластеризации. В основе этих алгоритмов лежит идея последовательной кластеризации. Пусть исходное множество содержит объектов x1, x2, x3,…xn,.
В качестве расстояния между объектами хi и хj выбирается некоторая материка p.
На начальном шаге каждый объект рассматривается как отдельный кластер. На следующем некоторые из ближайших друг к другу кластеров будут объединяться в один новый кластер.
Результаты кластеризации имеют следующий вид:
- Строится горизонтальная или вертикальная дендрограмма – график, на котором определены расстояния между объектами и кластерами при их последовательном объединении. Древовидная структура графика позволяет определить кластеры в зависимости от выбранного порога – заданного расстояния между кластерами.
- Выводится матрица расстояний между исходными объектами
- Выводятся средние и среднеквадратичные отклонения для каждого исходного объекта