- •Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов
- •Глава 1. Основные возможности и характеристики Python 5
- •Глава 2. Основные понятия лингвистической статистики 27
- •Глава 3. Частотные словари 51
- •Введение
- •Глава 1. Основные возможности и характеристики Python
- •Философия языка
- •История языка
- •Влияние других языков на Python
- •Портируемость
- •Установка
- •1.2. Описание Типы и структуры данных
- •Синтаксис и семантика
- •Операторы
- •Выражения
- •Строки документации
- •Директивы
- •1.3. Возможности Интерактивный режим
- •Объектно-ориентированное программирование
- •Возможности и особенности:
- •Функциональное программирование
- •Модули и пакеты
- •Интроспекция
- •Обработка исключений
- •Итераторы
- •Генераторы
- •Управление контекстом выполнения
- •Декораторы
- •1.4. Библиотеки Стандартная библиотека
- •Модули расширения и программные интерфейсы
- •Графические библиотеки
- •1.5. Недостатки Низкое быстродействие
- •Отсутствие статической типизации
- •Невозможность модификации встроенных классов
- •Глобальная блокировка интерпретатора (gil)
- •Источники
- •Глава 2. Основные понятия лингвистической статистики
- •2.1. Индексы (коэффициенты, формулы) и энтропия
- •2.2. Описание выполненной работы. Экспериментальная часть
- •2.3. Алгоритм программы
- •2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
- •Глава 3. Частотные словари
- •3.1. Приемы составления частотных словарей лексики русских текстов
- •3.2. Оценка надежности частотного словаря.
- •3.3. Описание программы «Текстовый анализатор»
- •Заключение
- •1. Анализ корпуса текста.
- •2. Частичный разбор
- •3. Разбор (сущ, глаг, прил) (бд)
- •Список литературы:
- •Приложение а. Листинг программы
2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
Результат работы программы – файл с расширением .csv, предназначенный для представления табличных данных. Каждая строка файла - это одна строка таблицы. Каждая строка файла содержит название входного текстового файла с расширением .txt, информацию по подсчитанным параметрам, время обработки файла. Все это перечислено через запятую, которая является разделительным символом. Этот csv-файл затем может импортироваться в Excel, куда он загружается в виде электронной таблицы.
|
Поэты |
N |
L |
Lf1 |
H*k |
Ii |
Ie |
Iq |
IC |
IP |
1 |
1880-1921_Блок А.А. |
207394 |
33188 |
16135 |
11,8923 |
6,25 |
1,56 |
0,08 |
34206 |
92,2201 |
2 |
1799-1837_Пушкин А.С. |
208199 |
38438 |
21363 |
12,17 |
5,42 |
2,05 |
0,08 |
39383 |
89,7391 |
3 |
1821-1876_Некрасов Н.А. |
218188 |
45116 |
26580 |
12,2598 |
4,84 |
2,44 |
0,08 |
45828 |
87,8178 |
4 |
1783-1852_Жуковский В.А. |
133609 |
26886 |
15662 |
11,7089 |
4,97 |
2,34 |
0,08 |
27526 |
88,2777 |
5 |
1814-1841_Лермонтов М.Ю. |
120803 |
22487 |
12540 |
11,5011 |
5,37 |
2,08 |
0,08 |
23229 |
89,6195 |
6 |
1892-1941_Цветаева М.И. |
146057 |
36430 |
23266 |
12,2324 |
4,01 |
3,19 |
0,09 |
36727 |
84,0706 |
7 |
1890-1960_Пастернак Б.Л. |
142639 |
36191 |
20250 |
12,1367 |
3,94 |
2,84 |
0,11 |
36954 |
85,8033 |
8 |
1804-1860_Хомяков А.С. |
71972 |
15449 |
9058 |
11,2442 |
4,66 |
2,52 |
0,09 |
15766 |
87,4146 |
9 |
1820-1892_Фет А.А. |
77832 |
20081 |
12745 |
11,6031 |
3,88 |
3,28 |
0,09 |
20407 |
83,625 |
10 |
1885-1992_Хлебников В. |
80275 |
23579 |
14897 |
12,1551 |
3,41 |
3,71 |
0,11 |
23877 |
81,4425 |
11 |
1822-1864_Григорьев А.А. |
54227 |
12869 |
7993 |
11,0561 |
4,21 |
2,95 |
0,09 |
13075 |
85,2601 |
12 |
1822-1862_Мей Л.А. |
72011 |
20559 |
13676 |
11,6517 |
3,5 |
3,8 |
0,1 |
20868 |
81,0085 |
13 |
1872-1936_Кузмин М.А. |
65277 |
19678 |
13048 |
11,8355 |
3,32 |
4 |
0,1 |
19846 |
80,0113 |
14 |
1824-1861_Никитин И.С. |
54584 |
14472 |
8925 |
11,3865 |
3,77 |
3,27 |
0,1 |
14729 |
83,6491 |
15 |
1870-1953_Бунин И.А. |
55128 |
15428 |
9505 |
11,5478 |
3,57 |
3,45 |
0,11 |
15696 |
82,7583 |
16 |
1792-1878_Вяземский П.А. |
58594 |
18486 |
12559 |
11,6737 |
3,17 |
4,29 |
0,1 |
18722 |
78,5661 |
17 |
1825-1893_Плещеев А.Н. |
42538 |
11303 |
7091 |
11,0872 |
3,76 |
3,33 |
0,1 |
11468 |
83,3302 |
18 |
1895-1925_Есенин С.А. |
47653 |
14676 |
9800 |
11,4621 |
3,25 |
4,11 |
0,1 |
14781 |
79,4347 |
19 |
1889-1966_Ахматова А.А. |
48871 |
14244 |
9548 |
11,2706 |
3,43 |
3,91 |
0,1 |
14448 |
80,4628 |
20 |
1807-1873_Бенедиктов В.Г. |
50398 |
16525 |
11227 |
11,7093 |
3,05 |
4,46 |
0,11 |
16711 |
77,7233 |
21 |
1800-1844_Баратынский Е.А. |
40347 |
12933 |
8800 |
11,4138 |
3,12 |
4,36 |
0,1 |
13004 |
78,1892 |
22 |
1891-1938_Мандельштам О.Э. |
48899 |
16108 |
10035 |
11,8223 |
3,04 |
4,1 |
0,12 |
16304 |
79,4781 |
23 |
1893-1930_Маяковский В.В. |
51909 |
20044 |
14825 |
12,0596 |
2,59 |
5,71 |
0,1 |
20143 |
71,4404 |
24 |
1840-1893_Апухтин А.Н. |
31620 |
9888 |
6612 |
11,0456 |
3,2 |
4,18 |
0,1 |
9989 |
79,0891 |
25 |
1787-1855_Батюшков К.Н. |
34864 |
11228 |
7333 |
11,3306 |
3,11 |
4,21 |
0,11 |
11377 |
78,9668 |
26 |
1795-1826_Рылеев К.Ф. |
34470 |
11216 |
7400 |
11,301 |
3,07 |
4,29 |
0,11 |
11342 |
78,5321 |
27 |
1743-1803_Богданович И.Ф. |
29156 |
9226 |
6244 |
10,9975 |
3,16 |
4,28 |
0,1 |
9331 |
78,5842 |
28 |
1803-1873_Тютчев Ф.И. |
33497 |
10591 |
6980 |
11,1751 |
3,16 |
4,17 |
0,11 |
10745 |
79,1623 |
29 |
1862-1911_Фофанов К.М. |
32433 |
10898 |
7184 |
11,3501 |
2,98 |
4,43 |
0,11 |
11046 |
77,8497 |
30 |
1821-1908_Жемчужников А.М. |
29793 |
10194 |
7188 |
11,1259 |
2,92 |
4,83 |
0,1 |
10278 |
75,8735 |
31 |
1809-1842_Кольцов А.В. |
23321 |
7669 |
5154 |
10,9213 |
3,04 |
4,42 |
0,11 |
7709 |
77,8997 |
32 |
1798-1831_Дельвиг А.И. |
28359 |
9924 |
6856 |
11,14 |
2,86 |
4,84 |
0,11 |
10008 |
75,8243 |
33 |
1855-1909_Анненский И.Ф. |
20651 |
7869 |
5621 |
11,0095 |
2,62 |
5,44 |
0,11 |
7921 |
72,7809 |
34 |
1797-1837_Бестужев-Марлинский А.А. |
20895 |
8673 |
6239 |
11,3438 |
2,41 |
5,97 |
0,12 |
8728 |
70,1412 |
Вычисление дополнительных параметров
Для каждой из рассматриваемых характеристик (накопленная энтропия, индекс итерации, индекс исключительности, индекс плотности, индекс дистрибуции, индекс предсказуемости) с помощью встроенных формул вычислены следующие показатели: максимальное значение, минимальное значение, дисперсия, дисперсия для генеральной совокупности, медиана, среднее значение.
Алгоритм вычисления для каждого показателя использовался один и тот же. Данный алгоритм действителен при работе в MS Excel 2007.
Интегральная оценка
Получение интегральной оценки подразумевает свертывание системы показателей в единый интегральный показатель (возможно заменить показатель на значение). Использование интегрального показателя переводит ситуацию поликритериального оценивания к ситуации монокритериального оценивания и соответственно упрощает процесс оценивания общего вклада поэтов в культуру.
Рассматриваемые характеристики (накопленная энтропия, индекс итерации, индекс исключительности, индекс плотности, индекс дистрибуции, индекс предсказуемости) имеют несопоставимые диапазоны измерения. Поэтому предварительно необходимо перейти к нормированным частным показателям для каждой характеристики. Нормирование — это монотонное преобразование шкал измерения показателей. Наиболее часто используют преобразование, переводящее частные показатели в интервал [0,1]. Частные показатели подбираются так, чтобы все они имели одинаковую направленность и соответствовали принципу “больше значение – лучше результат”.
Для накопленной энтропии, индекса итерации, индекса дистрибуции, индекса предсказуемости частные показатели вычисляются по формуле:
для индекса исключительности и индекса плотности по формуле:
где – нормированный частный i-ый показатель для j-го поэта, – показатель i-ой характеристики для j-го поэта, – минимальный показатель для i-ой характеристики, – максимальный показатель для i-ой характеристики.
Для объединения нормированных значений в единый интегральный показатель используется формула:
где – интегральный показатель для j-го поэта, – k-ый показатель для j-го поэта, n – количество нормированных частных показателей.
После вычисления интегральных показателей для каждого поэта производится сортировка таблицы в порядке убывания полученных результатов с целью ранжирования поэтов по вкладу в культуру.
Вторая глава посвящена основным понятиям лингвистической статистики. Приведены индексы, коэффициенты и формулы для расчёта количественных показателей текстов. В этой же главе описан алгоритм программы и использование этой программы для количественной обработки корпуса текстов поэтов Золотого и Серебряного веков.
График 1
График 2
График 3
График 4
График 5
График 6
Итоговый график