Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лабораторная 8 / занятие_8

.docx
Скачиваний:
7
Добавлен:
20.03.2015
Размер:
24.74 Кб
Скачать

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ.

Оказывается, все созданные человеком тексты построены по единым правилам! Никому не удается обойти их. Какой бы язык не использовался, кто бы ни писал – классик или графоман, - внутренняя структура текста остается неизменной. Она описывается законами Ципфа (G.K.Zipf). Ципф предложил, что природная лень человеческая (впрочем, это свойство любого живого существа) ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Ципф вывел два универсальных закона.1

Первый закон Ципфа "ранг - частота".

Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и т.д. Ткнем наугад в  страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

  • Сгруппируем их, взяв только одно значение из каждой группы.

  • Расположим частоты по мере их убывания и пронумеруем.

  • Порядковый номер частоты называется рангом частоты.

  • Выберем любое число и посчитаем, сколько раз ? оно встречается в тексте  . Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста . Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз.

  • Вероятность= Частота вхождения слова / Число слов

  • Ципф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!

  • С = (Частота вхождения слова * Ранг числа) / Число слов

  • Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текс мы ни взяли. Так, например, для английских текстов константа Ципфа равна приблизительно 0,1. для русского языка коэффициент Ципфа составляет приблизительно 0,06-0,07. Список литературы:

  1. «занятие_5.doc»

  2. «занятие_6.doc»

  3. «Таблица.doc»

Автор:

Статник Артур Сергеевич.

Таблица 1

Наименование товара

Обработка товаров

Цена за еденицу

Количество

Стоимость

Компьютер

900

2

1800

Музыкальный центр

300

8

2400

Принтер

100

5

500

Телевизор

200

4

800

Утюг

30

6

180

ИТОГО:

1530

25

38250

Таблица 2

Наименование товара

Обработка товаров

Цена за еденицу

Количество

Стоимость

Компьютер

900

2

1800

Музыкальный центр

300

8

2400

Принтер

100

5

500

Телевизор

200

4

800

Утюг

30

6

180

ИТОГО:

1530

25

38250

Таблица 3

Ф.И.О.

1 блок

2 блок

3 блок

Мат.

ан.

Лин.

алг.

Хим

Инф

Мат.

ан.

Лин.

алг.

Хим

Инф

Мат.

ан.

Лин.

алг.

Хим

Инф

  1. Иванов И.И.

80

60

70

80

  1. Петров П.П.

  1. Сидоров С.С.

Оглавление

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ. 2

Первый закон Ципфа "ранг - частота". 2

Список таблниц:

Таблица 1.

Таблица 2.

Таблица 3.

1 Эту сноску поставил Статник Артур Сергеевич.

5

Соседние файлы в папке Лабораторная 8