- •Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов
- •Глава 1. Основные возможности и характеристики Python 5
- •Глава 2. Основные понятия лингвистической статистики 27
- •Глава 3. Частотные словари 51
- •Введение
- •Глава 1. Основные возможности и характеристики Python
- •Философия языка
- •История языка
- •Влияние других языков на Python
- •Портируемость
- •Установка
- •1.2. Описание Типы и структуры данных
- •Синтаксис и семантика
- •Операторы
- •Выражения
- •Строки документации
- •Директивы
- •1.3. Возможности Интерактивный режим
- •Объектно-ориентированное программирование
- •Возможности и особенности:
- •Функциональное программирование
- •Модули и пакеты
- •Интроспекция
- •Обработка исключений
- •Итераторы
- •Генераторы
- •Управление контекстом выполнения
- •Декораторы
- •1.4. Библиотеки Стандартная библиотека
- •Модули расширения и программные интерфейсы
- •Графические библиотеки
- •1.5. Недостатки Низкое быстродействие
- •Отсутствие статической типизации
- •Невозможность модификации встроенных классов
- •Глобальная блокировка интерпретатора (gil)
- •Источники
- •Глава 2. Основные понятия лингвистической статистики
- •2.1. Индексы (коэффициенты, формулы) и энтропия
- •2.2. Описание выполненной работы. Экспериментальная часть
- •2.3. Алгоритм программы
- •2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
- •Глава 3. Частотные словари
- •3.1. Приемы составления частотных словарей лексики русских текстов
- •3.2. Оценка надежности частотного словаря.
- •3.3. Описание программы «Текстовый анализатор»
- •Заключение
- •1. Анализ корпуса текста.
- •2. Частичный разбор
- •3. Разбор (сущ, глаг, прил) (бд)
- •Список литературы:
- •Приложение а. Листинг программы
2.2. Описание выполненной работы. Экспериментальная часть
Обоснованность выбора корпуса текстов
В данной работе в качестве корпуса текстов для исследования взяты произведения поэтов Золотого и Серебряного века. Исследуются произведения 34 поэтов, текстовые файлы с полным собранием их произведений взяты с … В отношении подлинности и авторства этих поэтов сомнений не возникает.
Серебряный век - период в истории русской культуры с 1890-х по начало 1920-х года.
Золотой век – первая половина 19 века.
Невозможно рассматривать одно в отрыве от другого, Серебряный век без наследия Золотого, а Золотой – без продолжения его в Серебряном.
|
Поэт |
Годы жизни |
1 |
Богданович И.Ф. |
1743-1803 |
2 |
Жуковский В.А. |
1783-1852 |
3 |
Батюшков К.Н. |
1787-1855 |
4 |
Вяземский П.А. |
1792-1878 |
5 |
Рылеев К.Ф. |
1795-1826 |
6 |
Бестужев-Марлинский А.А. |
1797-1837 |
7 |
Дельвиг А.И. |
1798-1831 |
8 |
Пушкин А.С. |
1799-1837 |
9 |
Баратынский Е.А. |
1800-1844 |
10 |
Тютчев Ф.И. |
1803-1873 |
11 |
Хомяков А.С. |
1804-1860 |
12 |
Бенедиктов В.Г. |
1807-1873 |
13 |
Кольцов А.В. |
1809-1842 |
14 |
Лермонтов М.Ю. |
1814-1841 |
15 |
Фет А.А. |
1820-1892 |
16 |
Некрасов Н.А. |
1821-1876 |
17 |
Жемчужников А.М. |
1821-1908 |
18 |
Мей Л.А. |
1822-1862 |
19 |
Григорьев А.А. |
1822-1864 |
20 |
Никитин И.С. |
1824-1861 |
21 |
Плещеев А.Н. |
1825-1893 |
22 |
Апухтин А.Н. |
1840-1893 |
23 |
Анненский И.Ф. |
1855-1909 |
24 |
Фофанов К.М. |
1862-1911 |
25 |
Бунин И.А. |
1870-1953 |
26 |
Кузмин М.А. |
1872-1936 |
27 |
Блок А.А. |
1880-1921 |
28 |
Хлебников В. |
1885-1992 |
29 |
Ахматова А.А. |
1889-1966 |
30 |
Пастернак Б.Л. |
1890-1960 |
31 |
Мандельштам О.Э. |
1891-1938 |
32 |
Цветаева М.И. |
1892-1941 |
33 |
Маяковский В.В. |
1893-1930 |
34 |
Есенин С.А. |
1895-1925 |
2.3. Алгоритм программы
Анализ текстового файла осуществляется по следующему алгоритму:
в исследуемом тексте все знаки препинания заменяются на пробелы;
по заранее определенному списку разделительных символов (пробелов) исследуемый текст разбивается на лексические единицы, за лексическую единицу берется словоупотребление, создается список слов;
создается частотный словарь;
производится расчет количественных характеристик для каждого слова;
производится вычисление индексов для текста;
результаты фиксируются в результирующем файле.
За несколько минут программа может составить частотный словарь автора и проанализировать по заданной схеме текст.