- •Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов
- •Глава 1. Основные возможности и характеристики Python 5
- •Глава 2. Основные понятия лингвистической статистики 27
- •Глава 3. Частотные словари 51
- •Введение
- •Глава 1. Основные возможности и характеристики Python
- •Философия языка
- •История языка
- •Влияние других языков на Python
- •Портируемость
- •Установка
- •1.2. Описание Типы и структуры данных
- •Синтаксис и семантика
- •Операторы
- •Выражения
- •Строки документации
- •Директивы
- •1.3. Возможности Интерактивный режим
- •Объектно-ориентированное программирование
- •Возможности и особенности:
- •Функциональное программирование
- •Модули и пакеты
- •Интроспекция
- •Обработка исключений
- •Итераторы
- •Генераторы
- •Управление контекстом выполнения
- •Декораторы
- •1.4. Библиотеки Стандартная библиотека
- •Модули расширения и программные интерфейсы
- •Графические библиотеки
- •1.5. Недостатки Низкое быстродействие
- •Отсутствие статической типизации
- •Невозможность модификации встроенных классов
- •Глобальная блокировка интерпретатора (gil)
- •Источники
- •Глава 2. Основные понятия лингвистической статистики
- •2.1. Индексы (коэффициенты, формулы) и энтропия
- •2.2. Описание выполненной работы. Экспериментальная часть
- •2.3. Алгоритм программы
- •2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
- •Глава 3. Частотные словари
- •3.1. Приемы составления частотных словарей лексики русских текстов
- •3.2. Оценка надежности частотного словаря.
- •3.3. Описание программы «Текстовый анализатор»
- •Заключение
- •1. Анализ корпуса текста.
- •2. Частичный разбор
- •3. Разбор (сущ, глаг, прил) (бд)
- •Список литературы:
- •Приложение а. Листинг программы
3.1. Приемы составления частотных словарей лексики русских текстов
Составление частотных словарей требует специальной разработки методики отбора материала, наблюдения и упорядочения его по определенным исследуемым признакам.
В нашей стране и за рубежом накоплен большой опыт по ручному и автоматическому составлению частотных словарей индоевропейских и тюркских языков. Частотные словари, составленные по русскому языку, охватывают тексты общим объемом около полутора миллиона словоупотреблений.
При составлении русских частотных словарей использованы два вида организации статистического эксперимента — сплошное и выборочное исследование текста.
Сплошное обследование используется в лингвостатистике тогда, когда, во-первых, генеральная совокупность хотя и велика, но все же обозрима, во-вторых, когда необходимо учесть все употребления интересующих нас лингвистических единиц, например слов. Такая ситуация имеет место при статистическом описании языка писателя или при исследовании языка отдельного художественного произведения.
Выборочный метод инвентаризации лексических единиц текста характеризуется тем, что анализируется не весь текст, а определенная совокупность текстов, имеющая суженную тематическую направленность (подъязык). Минимальной выборкой из текстов определенного подъязыка является отрезок текста объемом в 1000 словоупотреблений. Дозировка материала для наблюдений устанавливается заранее с помощью специи листов исследуемой отрасли знания. По этой методике составлен частотный словарь современных русских газетных текстов (150 тыс. словоупотреблений), детской литературы (100 тыс. словоупотреблений), русских сказок (100 тыс. словоупотреблений), русских математических текстов (20 тыс. словоупотреблений), а также частотные словари текстов других тюркских языков.
3.2. Оценка надежности частотного словаря.
Как уже было сказано, частотные словари строятся либо на сплошном, либо на выборочном исследовании текста. Если частотный словарь построен выборочным путем, возникает вопрос, насколько получаемая статистическая я модель отражает свойства своего оригинала — в нашем случае распределены вероятностей исследуемых лексических единиц.
Ответ на этот вопрос можно получить, оценив надежность нашей модели, для чего используются не только математические, но и чист лингвистические приемы.
В частности, встает вопрос о качестве организации выборки текстов, т. е. о том, насколько стиль и тематика отобранных для статистического исследования текстов отвечают стилистика - тематическом своеобразию исследуемой разновидности языка.
Если тематические пропорции выборки соответствуют пропорциям тем в оригинале, то выборку можно считать репрезентативной. Это означает, что выборочное распределение изучаемого лингвистического признака будет достаточно близко к его распределению в генеральной (гипотетической, теоретической) совокупности. В качестве иллюстрации рассмотрим организацию выборочного отбора текстов для составления частотного словаря лексики русских газет.
Сначала весь газетный материал, включающий 500 номеров четырех газет, был распределен по жанрово-тематическим разделам. Из этих разделов было отобрано произвольно около 1090 статей, которые образовали экспериментальную выборку.
Эта выборка была разбита на 150 порций по 1000 словоупотреблений. В свою очередь, каждая из этих порций была разбита на 10 мелких выборок по 100 словоупотреблений каждая с учетом удельного веса каждого жанра и тематики.
Другой простой способ оценки качества составленного частотного словаря состоит в установлении того, насколько часто слова (словоформы) полученной списка встречаются в новых, неисследованных текстах, относящихся к той же тематике, что и ранее обследованные тексты. При этом важно определить, какой процент этих новых текстов будет покрывать единицы частотного словаря. Хотя оба эти подхода являются чисто эмпирическими и математически не строгими приемами, в целом они позволяют оценить качество частотного словаря.
С другой стороны, существуют чисто математические приемы, при помощи которых можно достаточно строго оценить достоверность полученных результатов.
К таким приемам, прежде всего можно отнести:
а) определение объема выборки и нижнего порога достоверности частот единиц частотного словаря;
б) определение доверительных интервалов вероятностей или математических ожиданий частот для слов (словоформ).