Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

лабораторная 5 / занятие_5

.docx
Скачиваний:
4
Добавлен:
20.03.2015
Размер:
19.11 Кб
Скачать

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ.

Оказывается, все созданные человеком тексты построены по единым правилам! Никому не удается обойти их. Какой бы язык не использовался, кто бы ни писал – классик или графоман, - внутренняя структура текста остается неизменной. Она описывается законами Ципфа (G.K. Zipf). Ципф предложил, что природная лень человеческая (впрочем, это свойство любого живого существа) ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Ципф вывел два универсальных закона.

Первый закон Ципфа "ранг - частота".

Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и т.д. Ткнем наугад в  страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

  • Сгруппируем их, взяв только одно значение из каждой группы.

  • Расположим частоты по мере их убывания и пронумеруем.

  • Порядковый номер частоты называется рангом частоты.

  • Выберем любое число и посчитаем, сколько раз ? оно встречается в тексте  . Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста . Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз.

  • Вероятность = Частота вхождения слова / Число слов

  • Ципф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!

  • С = (Частота вхождения слова * Ранг числа) / Число слов

  • Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текс мы ни взяли. Так, например, для английских текстов константа Ципфа равна приблизительно 0,1. для русского языка коэффициент Ципфа составляет приблизительно 0,06-0,07.