Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
пособие Епархина О.В.12.doc
Скачиваний:
19
Добавлен:
18.11.2019
Размер:
1.24 Mб
Скачать

3. 5. Энтропийный коэффициент разброса

Степень неопределенности распределения случайной величины Y определяется с помощью энтропии этого распределения. Пусть случайная величина Y принимает значения 1,2, ..., k с вероятностями, равными Р1, Р2, ..., Рk (вероятность отождествляется с относительной частотой встречаемости этого значения). Введем обозначение:

Рj = P (Y = j)

Энтропией случайной величины Y (распределения) называется функция (формула Больцмана) вида:

,

где основание логарифма произвольно.

Пусть некие независимые признаки U и V принимают k и l равновероятностных значений.32 Рассмотрим, каким свойствам должна удовлетворять функция f, характеризующая неопределенность распределений признаков.

F = f (k),

т.е. рассматриваемая функция зависит от числа градаций того признака, неопределенность распределения которого она измеряет и f(1) = 0. Для k > l должно быть справедливо неравенство

f (k) > f (l).

Число сочетаний значений признаков равно произведению kl. Степень неопределенности двумерного распределения f(kl) должна быть равна сумме неопределенностей соответствующих одномерных распределений, т.е. f(kl) = f(k) + f(l). Логарифмическая функция единственная функция аргумента k, удовлетворяющая условиям: f (k l) = f (k) + f(l), f (1) =0, f(k) >f (l) при k > l .

Энтропия может быть нулевой и ненулевой.

1) H (Y) = 0. Равенство достигается тогда, когда Y принимает только одно значение. Это ситуация максимальной определенности: случайным образом выбрав объект, мы точно знаем, что для него рассматриваемый признак принимает упомянутое значение (рис.9)

Рис. 9. Распределение с нулевой энтропией

Единственная отличная от нуля вероятность здесь равна 1. Для такого распределения энтропия действительно равна нулю.

2) При фиксированном k значение энтропии максимально, когда все возможные значения Y равновероятны. Это ситуация максимальной неопределенности. Предположим, например, что k = 5 (рис. 10)

Рис. 10. Распределение с максимальной энтропией при заданном числе градаций признака

Здесь Pj = 0,2 и значение энтропии при этом равно log 5, а в общем случае в ситуации полной неопределенности энтропия равна log k. Чем больше градаций имеет признак, тем большей энтропии может достичь отвечающее ему распределение.

На рис. 9 и 10 мы видим 2 варианта:

  1. минимальная (нулевая) энтропия, наилучший прогноз, полная определенность;

  2. максимальная энтропия (равная log k и поэтому зависящая от числа градаций рассматриваемого признака), наихудший прогноз, полная неопределенность.

На рис.9 разброс рассматриваемого признака равен нулю, а на рис.10 — максимально большой. Энтропия будет тем больше, чем реальное распределение ближе к ситуации, отраженной на рис 10, и тем меньше, чем оно ближе к ситуации, отраженной на рис.9. Поэтому энтропия может использоваться при оценке степени разброса значений номинального признака. Однако максимальное значение энтропии для распределения какого-либо признака зависит от числа его градаций. Энтропия не может выступать в качестве меры разброса — значение энтропии необходимо нормировать, поделить на величину максимальной энтропии и получить энтропийный коэффициент

.