3. Содержательный (вероятностный) подход при разной вероятности возникновения события.
Бывают случаи, когда поступает сообщение о не равновероятных событиях. Тогда, если N – это общее число возможных исходов какого-то процесса(вытаскивание шара, получение оценки, ловля рыбы),и из них интересующее нас событие(вытаскивание белого шара, получение пятерки, попадание щуки) может произойти К раз, то вероятность этого события равна p =K/N.
Вероятность выражается в долях единицы. В частном случае, вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар); вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар).
Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить так: чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.
Количественная зависимость между вероятностью события (р) и количеством информации в сообщении о нем (i) выражается формулой:
i=log2 (1/p)
Пример 3.1.В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании «не глядя» попадется белый шар больше, чем вероятность попадания черного. Затем определим количество информации в сообщении о попадании белого шара и черного шара.
Решение.Обозначим рч– вероятность попадания при вытаскивании черного шара, рб– вероятность попадания белого шара. Тогда:
рч = 10/50 = 0,2; р6= 40/50 = 0,8.
Отсюда видно, что вероятность попадания белого шара в 4 раз больше, чем черного.
iб = log 2 (l/0,8) = log 2 (l,25) = 0,321928;
iч =log2(l/0,2) =log2 5 = 2,321928.
Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встречаются в тексте с разной частотой и, следовательно, имеют разную вероятность. Значит, измерять информационный вес каждого символа в тексте так, как это делалось раньше (в предположении равновероятности), нельзя.
Пример 3.2.В алфавите племени МУМУ всего 4 буквы (А, У, М, К), один знак препинания (точка) и для разделения слов используется пробел. Подсчитали, что в популярном романе «Мумука» содержится всего 10000 знаков, из них: букв А – 4000, букв У – 1000, букв М – 2000, букв К – 1500, точек – 500, пробелов – 1000. Какой объем информации содержит книга?
Решение. Поскольку объем книги достаточно большой, то можно допустить, что вычисленная по ней частота встречаемости в тексте каждого из символов алфавита характерна для любого текста языке МУМУ. Подсчитаем частоту встречаемости каждого символа во всем тексте книги (т.е. вероятность) и информационные веса символов:
буква А: 4000/10000 = 0,4; iA=log2(1/0,4) = 1,321928;
буква У: 1000/10000 = 0,1; iУ=log2(1/0,1) = 3,1928;
буква М: 2000/10000 = 0,2; iМ=log2(1/0,2) = 2,321928;
буква К: 1500/10000 = 0,15; iК=log2(1/0,15) = 2,736966;
точка: 500/10000 = 0,05; iточка=log2(1/0,05) = 4,321928;
пробел: 1000/10000 = 0,1; iпробел=log2(1/0,1) = 3,321928.
Общий объем информации в книге вычислим как суму произведений информационного веса каждого символа на число повторений этого символа в книге:
I=iА×nА+iУ×nУ+iМ×nМ+iК×nК+iточка×nточка+iпробел×nпробел=
=1,321928×4000+3,1928×1000+2,321928×2000+2,736966×1500+4,321928×500+3,321928×100=22841,84 бита.
Задачи
№ 3.1. В корзине лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар?
№ 3.2. В корзине лежат 32 клубка шерсти. Среди них – 4 красных. Сколько информации несет сообщение о том, что достали клубок красной шерсти?
№ 3.3. В коробке лежат 64 цветных карандаша. Сообщение о том, что достали белый карандаш, несет 4 бита информации. Сколько белых карандашей было в корзине?
№ 3.4. В ящике лежат перчатки (белые и черные). Среди них – 2 пари черных. Сообщение о том, что из ящика достали пару черных перчаток, несет 4 бита информации. Сколько всего пар перчаток было в ящике?
№ 3.5. В классе .30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Какое количество информации в сообщении о том, что Иванов получил четверку?
№ 3.6. Известно, что в ящике лежат 20 шаров. Из них 10 – черных, 5 – белых, 4 – желтых и 1 – красный. Какое количество информации несут сообщения о том, что из ящика случайным образом достали черный шар, белый шар, желтый шар, красный шар?
№ 3.7. За четверть ученик получил 100 оценок. Сообщение о том, что он получил четверку, несет 2 бита информации. Сколько четверок ученик получил за четверть?
№ 3.8. В корзине лежат белые и черные шары. Среди них 18 черных шаров. Сообщение о том, что из корзины достали белый шар, несет 2 бита информации. Сколько всего в корзине шаров?
№ 3.9. Частотный словарь русского языка – словарь вероятностей (частот) появления букв в произвольном тексте – приведен ниже. Определите, какое количество информации несет каждая буква этого словаря.
Символ |
Частота |
Символ |
Частота |
Символ |
Частота |
Символ |
Частота |
о |
0.090 |
в |
0.035 |
я |
0.018 |
ж |
0.007 |
е, ё |
0.072 |
к |
0.028 |
ы, з |
0.016 |
ю, ш |
0.006 |
а, и |
0.062 |
м |
0.026 |
ь, ъ, б |
0.014 |
ц, щ, э |
0.003 |
т,н |
0.053 |
д |
0.025 |
ч |
0.013 |
ф |
0.002 |
с |
0.045 |
п |
0.023 |
й |
0.012 |
|
|
р |
0.040 |
у |
0.021 |
х |
0.009 |
|
|
№ 3.10. Используя результат решения предыдущей задачи, определите количество информации в слове «ИНФОРМАТИКА».