Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лабораторная 3 / занятие_3

.docx
Скачиваний:
4
Добавлен:
20.03.2015
Размер:
13.35 Кб
Скачать

Первый закон Ципфа "ранг - частота".

Выберем любое число и посчитаем, сколько раз? оно встречается в тексте . Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста . Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз.

  • Сгруппируем их, взяв только одно значение из каждой группы.

  • Расположим частоты по мере их убывания и пронумеруем.

  • Порядковый номер частоты называется рангом частоты.

Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и т.д. Ткнем наугад в  страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

Вероятность = Частота вхождения слова / Число слов

Ципф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!

С = (Частота вхождения слова * Ранг числа) / Число слов

Значение константы в разных языках различно, но внутри одной языковой группы  остается неизменно, какой бы текс мы ни взяли. Так, например, для английских текстов константа Ципфа равна приблизительно 0,1. для русского языка коэффициент Ципфа составляет приблизительно 0,06-0,07.