3. 5. Энтропийный коэффициент разброса

Степень неопределенности распределения случайной величины Y определяется с помощью энтропии этого распределения. Пусть случайная величина Y принимает значения 1,2, ..., k с вероятностями, равными Р_1, Р_2, ..., Р_k (вероятность отождествляется с относительной частотой встречаемости этого значения). Введем обозначение:

Р_j = P (Y = j)

Энтропией случайной величины Y (распределения) называется функция (формула Больцмана) вида:

где основание логарифма произвольно.

Пусть некие независимые признаки U и V принимают k и l равновероятностных значений.^³² Рассмотрим, каким свойствам должна удовлетворять функция f, характеризующая неопределенность распределений признаков.

F = f (k),

т.е. рассматриваемая функция зависит от числа градаций того признака, неопределенность распределения которого она измеряет и f(1) = 0. Для k > l должно быть справедливо неравенство

f (k) > f (l).

Число сочетаний значений признаков равно произведению kl. Степень неопределенности двумерного распределения f(kl) должна быть равна сумме неопределенностей соответствующих одномерных распределений, т.е. f(kl) = f(k) + f(l). Логарифмическая функция единственная функция аргумента k, удовлетворяющая условиям: f (k l) = f (k) + f(l), f (1) =0, f(k) >f (l) при k > l .

Энтропия может быть нулевой и ненулевой.

1) H (Y) = 0. Равенство достигается тогда, когда Y принимает только одно значение. Это ситуация максимальной определенности: случайным образом выбрав объект, мы точно знаем, что для него рассматриваемый признак принимает упомянутое значение (рис.9)

Рис. 9. Распределение с нулевой энтропией

Единственная отличная от нуля вероятность здесь равна 1. Для такого распределения энтропия действительно равна нулю.

2) При фиксированном k значение энтропии максимально, когда все возможные значения Y равновероятны. Это ситуация максимальной неопределенности. Предположим, например, что k = 5 (рис. 10)

Рис. 10. Распределение с максимальной энтропией при заданном числе градаций признака

Здесь P_j = 0,2 и значение энтропии при этом равно log 5, а в общем случае в ситуации полной неопределенности энтропия равна log k. Чем больше градаций имеет признак, тем большей энтропии может достичь отвечающее ему распределение.

На рис. 9 и 10 мы видим 2 варианта:

минимальная (нулевая) энтропия, наилучший прогноз, полная определенность;
максимальная энтропия (равная log k и поэтому зависящая от числа градаций рассматриваемого признака), наихудший прогноз, полная неопределенность.

На рис.9 разброс рассматриваемого признака равен нулю, а на рис.10 — максимально большой. Энтропия будет тем больше, чем реальное распределение ближе к ситуации, отраженной на рис 10, и тем меньше, чем оно ближе к ситуации, отраженной на рис.9. Поэтому энтропия может использоваться при оценке степени разброса значений номинального признака. Однако максимальное значение энтропии для распределения какого-либо признака зависит от числа его градаций. Энтропия не может выступать в качестве меры разброса — значение энтропии необходимо нормировать, поделить на величину максимальной энтропии и получить энтропийный коэффициент

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2510 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.2019212.48 Кб1помощь часть С.doc
#
01.12.201842.45 Кб10Понятие и значение СКД.docx
#
20.11.20191.68 Mб35Пос. 1.doc
#
06.02.2015231.82 Кб229пособие Болдырева.docx
#
08.11.20183.49 Mб49ПОСОБИЕ ВКМ.doc
#
18.11.20191.24 Mб19пособие Епархина О.В.12.doc
#
24.09.20191.37 Mб5Пособие по английскому.doc
#
16.12.20188.17 Mб14Пособие по письму.doc
#
06.02.20152.12 Mб547Пособие Ч.3 макет.doc
#
06.02.201529.02 Кб25почва.docx
#
13.08.2019611.84 Кб9Пр_17_Связанные_таблицы.doc