- •Кафедра: “Комп’ютерні науки”
- •Теоретичні відомості
- •Теорія інформації та передача сигналів
- •Кількість інформації, ентропія
- •Властивості ентропії
- •Завдання
- •Зміст звіту по лабораторній роботі
- •Теоретичні відомості
- •Ентропія складних повідомлень
- •Властивості ентропії складних повідомлень
- •Надмірність джерела повідомлень
- •Завдання
- •Приклад виконання завдання
- •Теоретичні відомості
- •Кодування інформації
- •Способи представлення кодів
- •Нерівномірні коди
- •Статистичне кодування
- •Код Шеннона-Фано
- •Завдання
- •Приклад виконання завдання
- •Теоретичні відомості
- •Оптимальний код - Хаффмана
- •Завдання
- •Приклад виконання завдання
- •Перелік рекомендованої літератури
Властивості ентропії складних повідомлень
Можна відзначити наступні основні властивості ентропії складних повідомлень:
1. При статистично незалежних повідомленнях X і Y спільна ентропія дорівнює сумі ентропій кожного з джерел:
H (X,Y) = H (X) + H (Y), (2.7)
тому що H (Y/X) = H (Y).
2. При повній статистичній залежності повідомлень X і Y спільна ентропія дорівнює безумовній ентропії одного з повідомлень. Друге повідомлення при цьому інформації не додає. Дійсно, при повній статистичній залежності повідомлень умовні імовірності P(yj/xi) і P(xi/yj) рівні або нулеві, або 1, тоді
P(xi /yj )*log P(xi /yj ) = P(yj /xi )*log P(yj /xi ) = 0 (2.8)
і, отже, H (X,Y) = H (X) = H (Y).
3. Умовна ентропія змінюється в межах
0 < H (Y /X ) < H (Y). (2.9)
4. Для спільної ентропії двох джерел завжди справедливе співвідношення
H (X,Y ) ≤ H (X) + H (Y), (2.10)
при цьому умова рівності виконується тільки для незалежних джерел повідомлень.
Отже, при наявності зв'язку між елементарними повідомленнями ентропія джерела знижується, причому в більшому ступені, коли сильніший зв'язок між елементами повідомлення.
Таким чином, можна зробити наступні висновки щодо ступеня інформативності джерел повідомлень:
1. Ентропія джерела і кількість інформації тим більша, чим більше розмір алфавіту джерела.
2. Ентропія джерела залежить від статистичних властивостей повідомлень. Ентропія максимальна, якщо повідомлення джерела рівноймовірні і статистично незалежні.
3. Ентропія джерела, що виробляє не рівновймовірні повідомлення, завжди менше максимальної.
4. При наявності статистичних зв'язків між елементарними повідомленнями (пам'яті джерела) його ентропія зменшується.
Як приклад розглянемо джерело з алфавітом, що складається з букв російської мови а ,б, у,.....,ю, я. Будемо вважати для простоти, що розмір алфавіту джерела ДО = 25 = 32.
Якби всі букви російського алфавіту мали однакову імовірність і були статистично незалежні, то середня ентропія, що приходиться на один символ, склала б
H ( x )max = log2 32 = 5 біт/букву.
Якщо тепер врахувати лише різну імовірність букв у тексті (а неважко перевірити, що так воно і є), розрахункова ентропія складе
H (x ) = 4,39 біт/букву.
З урахуванням кореляції (статистичного зв'язку) між двома і трьома сусідніми буквами (після букви “П” частіше зустрічається “A” і майже ніколи – “Ю” і “Ц”) ентропія зменшиться, відповідно, до
H ( x ) = 3,52 біт/букву і H ( x ) = 3,05 біт/букву.
Нарешті, якщо врахувати кореляцію між вісьма і більше символами, ентропія зменшиться до
H (x ) = 2,0 біт/букву
і далі залишається без змін.
Надмірність джерела повідомлень
У зв'язку з тим, що реальні джерела з тим самим розміром алфавіту можуть мати зовсім різну ентропію (а це не тільки тексти, але і мова, музика, зображення і т.д.), то вводять таку характеристику джерела, як надмірність:
ρі = 1 - H ( x ) / H (x )max = 1 - H ( x )/log K , (2.11)
де H (x ) - ентропія реального джерела, log K - максимально досяжна ентропія для джерела з обсягом алфавіту в K символів.
Тоді, приміром, надмірність літературного російського тексту складе
ρі = 1 - ( 2 біти/букву )/( 5 біт/букву ) = 0,6 .
Іншими словами, при передачі тексту по каналі зв'язку кожні шість букв із десяти переданих не несуть ніякої інформації і можуть без усяких втрат просто не передаватися.
Такою ж, якщо не більш високою ( ρі= 0,9...0,95) надмірністю володіють і інші джерела інформації - мова, і особливо музика, телевізійні зображення і т.д.
Виникає законне питання: потрібно чи займати канал зв'язку передачею символів, що практично не несуть інформації, або ж можливо таке перетворення вихідного повідомлення, при якому інформація "стискалася" б в мінімально необхідне для цього число символів?