Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Avtomatizatsia_ekonomicheskih_raschetov_v_Excel....doc
Скачиваний:
54
Добавлен:
14.11.2018
Размер:
6.91 Mб
Скачать

7.4. Кластерный анализ

7.4.1. Общие положения.

Применяется в задачах классификации.

Имеется два варианта задач классификации:

а) Имеется набор групп объектов (классов или кластеров) и известны параметры групп. Необходимо вновь появившийся объект отнести к одной из групп.

б) Не известно ни количество групп, ни их характеристики. Имеется набор объектов, которые необходимо расклассифицировать по группам. Т.е. классификация производится с нуля.

Основные идеи классификации можно пояснить на следующих примерах.

7.4.2. Примеры

Пример 1.

П усть в качестве объектов классификации выступают регионы РФ. И пусть каждый из них характеризуется одним параметром – численностью населения. Если этот показатель нанести на числовую ось, то получится примерно следующее:

Рис.7.2. Распределение регионов РФ по численности населения.

Из рис.7.2 следует, что среди регионов Росси имеются объекты с низкой численностью населения (Чукотка, Магаданская и Еврейская области). Они группируются в отдельную группу.

Во вторую и самую многочисленную группу группируются регионы типа республик поволжского региона. Эту группу можно назвать регионами со средней численностью.

В третью группу входят области Черноземья (Краснодарский и Ставропольский край) и промышленные регионы (Свердловская область, Нижегородская область и т.д.). Эту группу можно назвать регионами с высокой численностью населения.

Особняком стоят регионы со сверхвысокой численностью населения Ленинградская и Московская области.

Приведенная классификация основана на чисто визуальном восприятии данных рисунка. Т.е. мы по плотности расположения данных на числовой оси уверенно провели классификацию и выделили четыре группы или кластера. При этом интуитивно возникают такие понятия как плотность кластеров.

Регионы со средней численностью представляют собой кластер с высокой плотностью объектов. Регионы с высокой численность представляют собой более разреженный кластер. В отношении Московской и Ленинградской области трудно сказать, что это такое – или это один очень сильно разреженный кластер, состоящий из двух объектов, или это два разных кластера, состоящих из одного объекта.

Пример 2.

Пусть в качестве объектов классификации выступают те же регионы РФ. И пусть каждый из них характеризуется двумя параметрами – объемом сельскохозяйственного производства и объемом промышленного производства. Если эти объекты нанести на график, у которого в качестве осей служат указанные параметры, то получится примерно следующее (рис. 7.3).

Рис. 7.3. Графическое представление регионов РФ в зависимости

от объемов промышленного и с/хозяйственного производства

Здесь также видны ясно различимые кластеры. Их можно охарактеризовать следующим образом.

Регионы с высоким уровнем сельскохозяйственного производства – это в основном регионы Черноземья.

Регионы с высоким уровнем промышленного производства – это в основном Уральские регионы и некоторые области Сибири

Регионы со средним уровнем развития как промышленного, так и сельскохозяйственного производства – сюда относятся большинство регионов России.

Регионы соотносительно высоким уровнем как промышленного, так и сельскохозяйственного производства – Московская и Ленинградская области.

Особняком стоит кластер с низким уровнем как промышленного, так и сельскохозяйственного производства – состоит из одного объекта (Чукотка).

И снова мы уверенно провели классификацию на основе визуального восприятия.

Аналогично можно произвести классификацию объектов, характеризующихся тремя показателями. Для этого правда придется строить трехмерные графики

Однако здесь следует иметь в виду, что форма кластеров может быть очень далека от шарообразной. Они могут иметь весьма причудливую форму, взаимно переплетаться в пространстве, проникать друг в друга и т.д. Пример показан на рисунке 7.4.

Рис.7.4. Пример объемного кластера

К сожалению возможности визуальной классификации исчерпываются когда размерность кластера больше трех. Кроме того, приведенные примеры носят модельный характер. При работе же с реальными данными (даже если их можно представить графически) чаще всего невозможно четко разделить объекты на отдельные группы

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]