Лабораторная 3 / занятие_3
.docxПервый закон Ципфа "ранг - частота".
Выберем любое число и посчитаем, сколько раз? оно встречается в тексте . Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста . Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз.
-
Сгруппируем их, взяв только одно значение из каждой группы.
-
Расположим частоты по мере их убывания и пронумеруем.
-
Порядковый номер частоты называется рангом частоты.
Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и т.д. Ткнем наугад в страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова / Число слов
Ципф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!
С = (Частота вхождения слова * Ранг числа) / Число слов
Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текс мы ни взяли. Так, например, для английских текстов константа Ципфа равна приблизительно 0,1. для русского языка коэффициент Ципфа составляет приблизительно 0,06-0,07.