Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика_ШПОРЫ.docx
Скачиваний:
27
Добавлен:
03.08.2019
Размер:
206.19 Кб
Скачать

10. Стандартизация исходных данных

Нормировка (стандартизация) данных

В кластерном анализе разбиение на кластеры существенно зависит от абсолютных значений исходных данных. Эту проблему решают с помощью нормировки (стандартизации). Для этого из всех значений по каждому фактору вычитают выборочное среднее этого фактора и полученные разности делят на среднее квадратическое отклонение.

где – исходное данное; – выборочное среднее;

– среднее квадратическое отклонение.

При этом стандартизованные значения будут иметь выборочные средние равные нулю, а выборочные дисперсии – равные единице. Другими словами, мы все факторы свели в одну весовую категорию, как боксеров перед соревнованиями. Для осуществления этой операции в пакете STATISTICA нужно вызвать модуль Data Management.

11. Основные понятия и алгоритмы кластерного анализа

Кластерный анализ

  • совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях между ними

  • это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)

Основная цель кластерного анализа

  • Разбиение исходной совокупности объектов (ситуаций) на подмножества, на группы схожих, близких между собой объектов, называемых кластерами (таксонами), так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

  • Сжатие данных - если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

  • Обнаружение новизны - выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Основные задачи кластерного анализа

  • Разработка типологии или классификации.

  • Исследование полезных концептуальных схем группирования объектов.

  • Порождение гипотез на основе исследования данных.

  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных

  • Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам".

  • Метод кластерного анализа используется в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, а исследование находится в описательной стадии.

  • Кластерный анализ определяет "наиболее возможно значимое решение«,поэтому проверка статистической значимости в действительности здесь неприменима.

Этапы кластерного анализа:

  • Отбор выборки для кластеризации.

  • Определение множества переменных, по которым будут оцениваться объекты в выборке.

  • Вычисление значений той или иной меры сходства между объектами.

  • Применение метода кластерного анализа для создания групп сходных объектов.

  • Проверка достоверности результатов кластерного решения

Методы кластеризации:

  • К-средних

  • Графовые алгоритмы кластеризации

  • Статистические алгоритмы кластеризации

  • Алгоритмы семейства FOREL

  • Иерархическая кластеризация или таксономия

  • Нейронная сеть Кохенена

  • Ансамбль кластеризаторов

  • Алгоритмы семейства KRAB

  • EM – алгоритм

  • Алгоритм, основанный на методе просеивания

Иерархические алгоритмы

Первая опция представляет группу так называемых иерархических алгоритмов кластеризации. В основе этих алгоритмов лежит идея последовательной кластеризации. Пусть исходное множество содержит объектов x1, x2, x3,…xn,.

В качестве расстояния между объектами хi и хj выбирается некоторая материка p.

На начальном шаге каждый объект рассматривается как отдельный кластер. На следующем некоторые из ближайших друг к другу кластеров будут объединяться в один новый кластер.

Результаты кластеризации имеют следующий вид:

- Строится горизонтальная или вертикальная дендрограмма – график, на котором определены расстояния между объектами и кластерами при их последовательном объединении. Древовидная структура графика позволяет определить кластеры в зависимости от выбранного порога – заданного расстояния между кластерами.

- Выводится матрица расстояний между исходными объектами

- Выводятся средние и среднеквадратичные отклонения для каждого исходного объекта