- •Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов
- •Глава 1. Основные возможности и характеристики Python 5
- •Глава 2. Основные понятия лингвистической статистики 27
- •Глава 3. Частотные словари 51
- •Введение
- •Глава 1. Основные возможности и характеристики Python
- •Философия языка
- •История языка
- •Влияние других языков на Python
- •Портируемость
- •Установка
- •1.2. Описание Типы и структуры данных
- •Синтаксис и семантика
- •Операторы
- •Выражения
- •Строки документации
- •Директивы
- •1.3. Возможности Интерактивный режим
- •Объектно-ориентированное программирование
- •Возможности и особенности:
- •Функциональное программирование
- •Модули и пакеты
- •Интроспекция
- •Обработка исключений
- •Итераторы
- •Генераторы
- •Управление контекстом выполнения
- •Декораторы
- •1.4. Библиотеки Стандартная библиотека
- •Модули расширения и программные интерфейсы
- •Графические библиотеки
- •1.5. Недостатки Низкое быстродействие
- •Отсутствие статической типизации
- •Невозможность модификации встроенных классов
- •Глобальная блокировка интерпретатора (gil)
- •Источники
- •Глава 2. Основные понятия лингвистической статистики
- •2.1. Индексы (коэффициенты, формулы) и энтропия
- •2.2. Описание выполненной работы. Экспериментальная часть
- •2.3. Алгоритм программы
- •2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
- •Глава 3. Частотные словари
- •3.1. Приемы составления частотных словарей лексики русских текстов
- •3.2. Оценка надежности частотного словаря.
- •3.3. Описание программы «Текстовый анализатор»
- •Заключение
- •1. Анализ корпуса текста.
- •2. Частичный разбор
- •3. Разбор (сущ, глаг, прил) (бд)
- •Список литературы:
- •Приложение а. Листинг программы
3.3. Описание программы «Текстовый анализатор»
Для начала работы с программой необходимо запустить файл TextAnalys.exe. При запуске программы открывается главная форма приложения (рисунок 1.1).
Рисунок 1.1- Главная форма приложения
Для начала разбора и анализа текста необходимо загрузить текстовый файл (файл с расширением *.txt). Для этого необходимо зайти в меню «Текст» и выбрать «Загрузка текста из файла» (рисунок 1.2)
Рисунок 1.2- Выбор файла
После выбора текстового файла можно начать непосредственно анализ и разбор текста. Для статистического (количественного) анализа корпуса текста необходимо выбрать меню «Анализ корпуса текста» и на экран вылезет форма с проанализированным текстом (рисунок 1.3).
Для каждой лексической единицы текста будет подсчитана ее абсолютная частота, относительная частота, удельная энтропия.
Список в левом окне формы упорядочен по рангу слова (т.е по его частоте встречаемости в тексте).
В правом окне этой формы будет показано количество слов в тексте, количество абзацев, подсчитаны знаки препинания (точки, запятые, восклицательные знаки, вопросы, двоеточия, точки с запятой).
А также: накопленная энтропия, индекс исключительности, индекс предсказуемости, индекс дистрибуции, индекс итерации. После этого вы можете увидеть, сколько слов в тексте встретились больше одного раза, сколько встретились хотя бы раз и один раз.
Далее идет список всех чисел встреченных в тексте.
Внизу формы выводиться сумма всех частот (т.е список всех лексических единиц, встреченных в данном тексте).
Рисунок 1.3- Количественный анализ корпуса текста
После произведенного анализа программа предлагает сохранить результат в файл (с расширением *.txt), который вы также можете выбрать, либо создать сами (рисунок 1.4).
Рисунок 1.4- Сохранение результата
В меню «Разбор» имеется подменю «Частичный разбор». Нажав на это подменю, либо нажав горячие клавиши “Ctrl+C” на экран вылезет форма с пятью пустыми окнами и кнопкой “Разбор”. При нажатии этой кнопки произойдет разбор текста на местоимения, междометия, предлоги, союзы и числительные (рисунок 1.5). Этот разбор осуществляется по имеющейся базе этих частей речи, которую вы можете просмотреть на главной форме программы.
Рисунок 1.5- Разбор на части речи 1
Результат данного разбора сохраняется в текстовых файлах (в папке с программой).
Кроме разбора на местоимения, междометия, предлоги, союзы и числительные имеется разбор на существительные, глаголы и прилагательные. Для этого разбора необходимо зайти в меню «Разбор», выбрать подменю «Разбор (сущ, глаг, прил) » , либо нажать “Ctrl+S”.
Используя кнопки под каждым окном формы, получается разбор текста на данные части речи (рисунок 1.6).
Это разложение на части речи осуществляется по имеющейся базе данных, которая находится в папке с программой.
Рисунок 1.6 Разбор на части речи 2
Также в программе имеется “Помощь” в которой описывается, как обращаться с программой (рисунок 1.7).
Рисунок 1.7 Справка
Таким образом, используя все эти функции, можно разобрать текст на части речи и произвести количественный анализ корпуса данного текста.
В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов.