Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Общая теория статистики Назаров

.pdf
Скачиваний:
154
Добавлен:
27.05.2015
Размер:
2.8 Mб
Скачать

5.5. Многомерная группировка (классификация)

141

используются при группировке предприятий, например по уров ню рентабельности.

5.5. Многомерная группировка (классификация)

Развитие рыночной инфраструктуры связано с получением боль шого числа разнородной статистической информации, использо вание которой может глубже раскрыть суть исследуемого объекта наблюдения.

Возможности типологической и аналитической группировок в данном случае ограниченны. Аналитическая группировка позволяет установить влияние на результативный признак небольшого коли чества факторных признаков, а типологическая группировка не позволяет формализовать степень сходства выделенных групп, в то время как в многомерных группировках она выражается опреде ленными функциональными соотношениями.

Многомерная группировка предполагает образование групп по различным классификационным признакам, позволяющим выя вить одновременное влияние всего комплекса факторных призна ков на результативный.

Использование многомерных группировок в статистической практике вызвано необходимостью разграничения однородных ти пичных групп в связи со сложным переплетением множества факто ров, оказывающих влияние на состояние изучаемого объекта.

Широко используются методы многомерной классификации в банковской практике, например, классификация коммерческих банков по степени финансовой устойчивости, кредитоспособнос ти, капитализации или классификация других институциональных единиц (предприятий, страховых компаний, фондов и др.) по уров ню деловой и инвестиционной активности, финансовому положе нию, рентабельности и др.

Данный метод статистического анализа приобретает особое зна чение в исследовании финансовой сферы деятельности. Появле ние новых институциональных единиц в области банковского дела, страхования, финансов, инвестирования, на фондовых рынках, их неравномерное развитие, оказывающее косвенное влияние на всю рыночную инфраструктуру, требуют пристального внимания к ре зультатам их деятельности как со стороны надзорных органов, так и финансовых партнеров.

142 Глава 5. Сводка и группировка статистических материалов

Преимущество многомерной классификации в том, что с ее по мощью можно произвести разделение исследуемого объекта на од нородные группы не только по установленным стандартным кри териям, но и с учетом реально сложившихся условий.

В практике статистического анализа получили применение раз личные методы многомерной классификации, наиболее распрост раненные из которых представлены на рис. 5.3.

Методы многомерной классификации

Метод многомерных средних

Агломеративно иерархический метод

Метод шаров

По принципу «ближнего» соседа

По принципу «дальнего» соседа

По принципу k средних

Рис. 5.3. Методы и принципы многомерной классификации

Остановимся подробнее на раскрытии метода многомерных средних, который дает возможность экономической интерпрета ции полученных результатов многомерной группировки наблюда емого объекта по качественно однородным группам по большому числу признаков одновременно.

Алгоритм реализации данного метода состоит из следующих эта пов.

Этап I. Представление значений результативного и факторного признаков в относительном выражении:

y Qi = yi ,

xij Pij = xj ,

где уi — эмпирические значения результативного признака;

y— средний уровень результативного признака; xj — средний уровень j го факторного признака.

5.5. Многомерная группировка (классификация)

143

Этап II. Использование полученных относительных величин для определения многомерной средней по формуле

Pij = Pij ,

k

где k — число факторных признаков.

Этап III. Определение общих факторов: А, В, С, D …, включаю щих идентичные по экономическому содержанию факторные призна ки (х1, х2, х3, х4 …), и расчет их многомерных средних: PA , PB , PC , PD .

Этап IV. Построение аналитической многомерной группиров ки, в основание которой положена многомерная средняя.

Этап V. Определение числа групп исходя из объема совокупнос ти, определение ширины равного интервала для большого объема наблюдений по формуле

iP = P max P min .

Число групп

Этап VI. Определение числа единиц изучаемой совокупности по

Qi и PA , PB , PC и т.д. в каждой группе.

Рассмотрим использование многомерных средних на примере классификации филиальной сети Сбербанка России по основным финансовым показателям по состоянию на 1 января 2005 г. с целью выделения однородных групп территориальных банков. В табл. 5.16 представлены основные показатели, характеризующие финансовое состояние коммерческих банков.

Расчетные значения относительных величин по факторным и результативному признакам, а также многомерная средняя приве дены в табл. 5.17. Сформировав общие факторы по экономической сущности из факторных показателей (табл. 5.16), получили матри цу многомерных средних общих факторов (табл. 5.18). Рассчитаем ширину интервала группировки по многомерной средней, одина ковое для каждой группы:

P = (P max P min ) : Число групп = (1,171− 0,835):3= 0,112.

На основании произведенных расчетов была выполнена груп пировка территориальных банков Сбербанка России по многомер ной средней, цель которой заключалась в выявлении влияния от дельных факторных показателей (Х1 Х14) на платежеспособность (Y – результативный показатель) коммерческого банка (табл. 5.19).

144 Глава 5. Сводка и группировка статистических материалов

 

 

 

 

Таблица 5.16

Основные финансовые показатели коммерческих банков

 

 

 

Показатель

Обозначение

Общие факторы

 

 

 

Рентабельность капитала

Х1

Финансовая

Рентабельность активов

Х2

устойчивость,

 

 

рентабельность (А):

Доходность активов

Х3

Х1, Х2, Х4, Х13, Х14

Доходность капитала

Х4

 

 

 

 

Просроченная задолженность

Х5

 

 

 

 

Качество кредитного портфеля

Х6

Качество активов (В):

Эффективность использования

Х7

Х

, Х , Х , Х

7

привлеченных средств

 

3

5

6

 

 

 

 

 

 

 

 

 

 

 

Мгновенная ликвидность

Х8

 

 

 

 

Текущая ликвидность

Х9

Ликвидность (С):

Долгосрочная ликвидность

Х10

Х8, Х9, Х10

 

Процентная маржа

Х11

 

 

 

 

 

Кредитный риск

Х12

 

 

 

 

Автономность

Х13

Риски (процентный

Финансовая устойчивость

Х14

и кредитный) (D):

 

Х11, Х12

 

Платежеспособность —

Y

 

 

 

 

 

 

результативный показатель

 

 

 

 

 

 

 

 

 

 

 

Группировка банков показала, что из трех выделенных групп по многомерной средней больше половины банков (59%) имеют са мую высокую платежеспособность. Их средний коэффициент пла тежеспособности равен 1,203, т.е. суммарные обязательства терри ториальных банков превышают на 20,3% вложенные активы. Обобщенные факторы оказали различное влияние на платежеспо собность банков, так в I группе (до 0,947) многомерной классифи кации больше влияния на этот показатель оказала ликвидность и меньше влияния оказали риски.

Для большинства банков, вошедших во II группу (от 0,947 до 1,059) классификации (10 банков) и имеющих лучшую платеже способность из всех выделенных групп, такое финансовое состоя ние обосновывается влиянием финансовой устойчивости и рента бельности.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.17

 

 

 

 

 

Матрица отношений и многомерная средняя основных финансовых

 

 

 

 

 

 

 

 

 

показателей филиальной сети Сбербанка России на 1 января 2005 г.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Банки

Qi

Pi1

 

Pi2

Pi3

Pi4

Pi5

Pi6

Pi7

Pi8

Pi9

Pi10

Pi11

Pi12

Pi13

 

Pi14

Pi15

 

.5.5

1

1,020

0,890

 

0,750

1,196

0,854

1,211

1,322

1,009

0,525

1,886

1,141

1,609

0,990

1,192

 

1,178

1,125

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Многомерная

2

1,002

0,970

 

1,042

0,958

0,912

0,316

0,677

0,993

0,880

0,965

1,024

1,000

1,010

0,990

 

1,00

0,910

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

1,016

1,088

 

1,125

1,056

1,036

0,579

0,710

1,011

1,131

1,274

1,074

1,080

1,010

1,414

 

1,144

1,052

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

0,990

0,909

 

0,792

1,021

0,788

0,789

0,871

0,987

0,489

1,000

1,368

1,092

1,005

0,859

 

0,867

0,917

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

0,967

0,617

 

0,375

0,790

0,847

3,474

2,097

0,973

1,597

0,816

0,692

0,632

0,962

0,606

 

0,633

1,079

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

группировка

9

0,958

1,322

 

1,250

0,986

0,978

0,263

0,581

0,999

0,983

1,229

1,011

1,000

1,014

0,899

 

0,944

0,961

 

6

0,992

0,754

 

0,667

0,979

0,956

1,632

1,355

0,996

1,268

0,935

1,047

0,931

0,988

0,879

 

0,889

1,020

 

 

7

1,011

1,390

 

1,500

1,175

0,978

0,105

0,581

1,019

0,553

1,095

1,083

1,299

1,014

1,091

 

1,078

0,997

 

 

8

1,004

0,898

 

0,917

0,895

0,993

1,789

1,226

0,989

0,846

1,020

0,989

0,805

0,990

1,010

 

1,011

1,027

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(классификация)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

0,984

1,269

 

1,000

0,986

0,942

1,000

0,935

0,982

1,302

0,886

0,928

0,897

1,002

0,788

 

0,800

0,980

 

10

0,974

0,598

 

0,417

0,993

0,912

2,158

1,290

0,967

1,601

0,731

0,530

0,989

0,990

0,677

 

0,70

0,968

 

 

11

0,984

1,083

 

0,875

0,909

1,117

0,316

0,484

0,997

0,960

0,806

0,821

0,690

1,017

0,798

 

0,811

0,835

 

 

12

1,027

0,795

 

1,000

1,105

1,234

0,684

0,935

0,988

1,411

0,915

0,993

1,138

1,003

1,273

 

1,244

1,051

 

 

13

1,024

0,852

 

1,042

1,042

1,088

1,158

1,000

1,017

0,616

0,965

1,172

1,126

1,000

1,232

 

1,211

1,037

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

1,096

1,201

 

1,167

0,944

0,825

0,474

0,677

1,000

0,793

0,990

1,162

0,908

1,011

0,949

 

0,955

0,933

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

1,062

1,284

 

2,000

1,084

1,336

0,421

1,032

1,065

0,776

0,871

1,099

1,207

1,000

1,657

 

1,567

1,171

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

17

0,993

1,205

 

1,083

0,916

1,212

1,053

1,000

1,005

1,135

0,637

0,860

0,874

1,000

0,889

 

0,900

0,984

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

145

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

146 Глава 5. Сводка и группировка статистических материалов

Таблица 5.18

Многомерные средние основных финансовых показателей

филиальной сети Сбербанка России на 1 января 2005 г.

Банки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Pi

P Ai

P Bi

P C i

P Di

1

1,125

0,973

1,185

1,184

1,300

 

 

 

 

 

 

2

0,910

0,983

0,736

0,956

1,005

 

 

 

 

 

 

3

1,052

1,161

0,839

1,160

1,045

4

0,917

0,843

0,917

0,952

1,049

5

1,079

0,616

1,834

1,035

0,797

6

1,020

0,829

1,241

1,083

0,960

7

0,997

1,207

0,720

0,910

1,157

 

 

 

 

 

 

8

1,027

0,966

1,225

0,952

0,898

 

 

 

 

 

 

9

0,961

1,079

0,707

1,074

1,007

10

0,968

1,079

1,352

0,954

0,990

11

0,835

0,661

0,677

0,862

0,854

12

1,051

0,937

0,928

1,106

1,071

13

1,037

1,109

1,054

0,918

1,063

14

0,980

1,085

0,976

1,039

0,950

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В III группу (от 1,059 и выше) вошли всего три банка, имеющие самую большую многомерную среднюю, которая объясняется вли янием на платежеспособность рисков (кредитного и процентного).

Более обоснованным методом многомерной классификации является кластерный анализ (агломеративно иерархический метод), преимущество которого заключается в более точной оценке одно родности групп, обеспеченной использованием различных алгорит мов иерархической классификации: метод «ближайшего соседа», метод «дальнего соседа», метод k средних. Реализация этого мето да происходит с использованием прикладных компьютерных про грамм, что значительно расширяет возможности статистического анализа и делает его перспективным.

Слово «кластер» (cluster) обозначает скопление, группу элемен тов, характеризуемых каким либо общим свойством, наиболее важ ными из которых являются:

плотность, позволяющая определить кластер как скопление точек в пространстве данных;

дисперсия, характеризующая степень рассеяния точек в про странстве относительно центра кластера;

Таблица 5.19

Группировка территориальных банков Сбербанка России методом многомерной средней по финансовому состоянию на 1 января 2005 г.

Группы терри

Число

Платеже

 

 

 

Общие факторы

 

 

 

.5.5

ториальных

банков

спо

 

 

 

 

 

 

 

 

Финансовая

Качество

Ликвидность

Риски

 

банков по

 

соб

Многомерная

 

устойчивость,

активов

 

 

(процентный и

многомерной

 

ность

 

 

 

 

 

 

 

рентабельность

 

 

 

 

кредитный)

 

средней

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число

Платеже

Число

Платеже

Число

Платеже

Число

Платеже

 

 

 

 

банков

спо

банков

спо

банков

спо

банков

спо

 

 

 

 

 

соб

 

соб

 

соб

 

соб

группировка

 

 

 

 

ность

 

ность

 

ность

 

ность

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

До 0,947

4

1,089

5

1,087

9

1,102

5

1,112

4

1,082

 

 

 

 

 

 

 

 

 

 

 

 

 

0,947—1,059

10

1,203

5

1,115

3

1,096

7

1,083

8

1,084

 

 

 

 

 

 

 

 

 

 

 

 

(классификация)

1,059 и выше

3

1,114

7

1,09

5

1,086

5

1,099

5

1,128

 

 

 

 

 

 

 

 

 

 

 

 

 

Итого

17

1,096

17

1,096

17

1,096

17

1,096

17

1,096

 

 

 

 

 

 

 

 

 

 

 

 

 

147

148Глава 5. Сводка и группировка статистических материалов

форма — это расположение точек в пространстве;

отделимость, характеризующая степень перекрытия класте ров и расстояние между ними в пространстве.

Не все из этих свойств достаточно четко формализуемы, поэто му существуют специальные коэффициенты сходства: коэффициент корреляции, меры расстояния, коэффициент ассоциативности, ве роятностные коэффициенты сходства. Из всех этих инструментов был выбран наиболее приемлемый в силу наглядности и относи тельной простоты расчета — меры расстояния.

Выбор расстояния является ключевым моментом исследования, от которого зависит окончательный вариант разделения объектов на кластеры.

Одним из используемых при многомерной классификации меры расстояния является Евклидово, или Хемингово, расстояние.

Евклидово расстояние имеет определенные преимущества (на пример, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, которое может показаться выб росом) и вычисляется по исходным данным, тем не менее на рас стояние могут сильно влиять различия между осями, по координа там которых вычисляются эти расстояния.

Оно является геометрическим расстоянием в многомерном про странстве и вычисляется следующим образом:

k

P(xi , x j ) = ∑ (xie x je )2 ,

e =1

где хie, xje — величина е й компоненты у i го (j го) объекта (е = 1, 2 … k), (i j = 1, 2 … n).

Принцип работы иерархических процедур состоит в последова тельном объединении групп элементов, сначала самых близких, а затем все более отдаленных друг от друга. Если мера расстояния между двумя кластерами возрастает скачкообразно, то, значит, по является новый объединенный кластер. Оптимальным считается число кластеров, равное разности количества наблюдений и коли чества шагов, после которого коэффициент увеличивается скачко образно. На последнем шаге все объекты объединяются вместе.

Следует отметить, что выбор показателей для кластерного ана лиза является одним из наиболее важных шагов, но, к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность показателей, которые бы наи

5.5. Многомерная группировка (классификация)

149

лучшим образом отражали сходство исследуемых единиц совокуп ности. В идеале показатели должны выбираться в соответствии с ясно сформулированной заранее теорией, которая лежит в основе классификации. Однако на практике все происходит наоборот: ре зультаты анализа послужат исходной базой для теории, которой в момент анализа еще не существует.

Алгоритм реализации данного метода состоит из следующих эта пов:

1)определение средних величин классификационных призна ков в целом по совокупности и нахождение средних квадратичес ких отклонений каждого из признаков;

2)вычисление матриц нормированных разностей по каждому группировочному признаку;

3)нахождение Евклидова расстояния между парой каждых еди ниц совокупности и выбор наименьшего;

4)объединение единиц совокупности с минимальным Евкли довым расстоянием в один кластер;

5)повторение всех перечисленных процедур, но только на уровне каждого кластера путем сравнения значений каждого кластера со всеми остальными значениями единиц совокупности.

Объединение в кластеры прекращается, когда все Евклидовы расстояния превысят заданную критическую величину.

Модификацией рассмотренного алгоритма иерархической клас сификации являются методы «ближайшего соседа» и «дальнего со седа». В этом случае в матрицу Евклидовых расстояний вводятся расстояния, рассчитанные на основе входящего в кластер объекта, наименее удаленного от остальных объектов («ближайший сосед»), либо наиболее удаленного от остальных («дальний сосед»).

Алгоритмы и программы многомерной классификации посто янно развиваются. Основными пакетами прикладных программ для решения многомерной классификации являются SPSS, SAS, Statistika. Большое значение в решении задач иерархических клас сификаций имеет компьютерная графика — так называемые клас сификационные деревья (дендрограммы).

Дендрограмма — дерево объединений кластеров с порядковы ми номерами объектов по горизонтальной оси и шкалой расстоя ния по вертикальной оси.

Рассмотрим применение кластерного анализа для сравнитель ной характеристики на том же примере — многомерной классифи

150 Глава 5. Сводка и группировка статистических материалов

кации филиальной сети Сбербанка России, позволяющем класси фицировать территориальные банки Сбербанка России на однород ные группы (кластеры).

Классификация проводилась с использованием программы SPSS различными алгоритмами кластерного анализа, наилучший резуль тат разбиения территориальных банков на группы дал метод по принципу «дальнего соседа», который позволил выделить три кла стера.

Для более наглядного представления результатов кластерного анализа была использована дендрограмма разбиения территориаль ных банков по кластерам (рис. 5.4).

0

5

10

15

20

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Северный

9

Уральский

15

Байкальский

2

Среднерусский

14

Восточно Сибирский

4

Западно Уральский

7

Северо Западный

11

Юго Западный

17

Волго Вятский

3

Сибирский

13

Северо Кавказский

12

Центрально Черноземный

16

Западно Сибирский

6

Поволжский

8

Северо Восточный

10

Дальневосточный

5

Алтайский

1

Рис. 5.4. Дендрограмма классификации территориальных банков Сбербанка России по основным финансовым показателям ресурсной базы на 1 января 2005 г.

В первый кластер вошло пять банков: Алтайский, Дальневос точный, Западно Сибирский, Поволжский, Северо Восточный, которые характерезуются значительным отрывом значений пока зателей по сравнению с остальными кластерами.

Второй кластер оказался самым многочисленным, в него вошла половина территориальных банков Сбербанка России: Байкаль