- •Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов
- •Глава 1. Основные возможности и характеристики Python 5
- •Глава 2. Основные понятия лингвистической статистики 27
- •Глава 3. Частотные словари 51
- •Введение
- •Глава 1. Основные возможности и характеристики Python
- •Философия языка
- •История языка
- •Влияние других языков на Python
- •Портируемость
- •Установка
- •1.2. Описание Типы и структуры данных
- •Синтаксис и семантика
- •Операторы
- •Выражения
- •Строки документации
- •Директивы
- •1.3. Возможности Интерактивный режим
- •Объектно-ориентированное программирование
- •Возможности и особенности:
- •Функциональное программирование
- •Модули и пакеты
- •Интроспекция
- •Обработка исключений
- •Итераторы
- •Генераторы
- •Управление контекстом выполнения
- •Декораторы
- •1.4. Библиотеки Стандартная библиотека
- •Модули расширения и программные интерфейсы
- •Графические библиотеки
- •1.5. Недостатки Низкое быстродействие
- •Отсутствие статической типизации
- •Невозможность модификации встроенных классов
- •Глобальная блокировка интерпретатора (gil)
- •Источники
- •Глава 2. Основные понятия лингвистической статистики
- •2.1. Индексы (коэффициенты, формулы) и энтропия
- •2.2. Описание выполненной работы. Экспериментальная часть
- •2.3. Алгоритм программы
- •2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
- •Глава 3. Частотные словари
- •3.1. Приемы составления частотных словарей лексики русских текстов
- •3.2. Оценка надежности частотного словаря.
- •3.3. Описание программы «Текстовый анализатор»
- •Заключение
- •1. Анализ корпуса текста.
- •2. Частичный разбор
- •3. Разбор (сущ, глаг, прил) (бд)
- •Список литературы:
- •Приложение а. Листинг программы
Заключение
В результате дипломной работы была создана программа «Количественный анализ корпуса текстов». Данная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Возможности программы можно описать кратко
1. Анализ корпуса текста.
Производится анализ текста
абсолютная частота
относительная частота
удельная энтропия
накопленная энтропия
индекс исключительности
индекс предсказуемости
знаки препинания
абзацы
цифры в тексте
2. Частичный разбор
Происходит поиск
местоимений,
междометий,
предлогов,
союзов,
числительных
Результат выполнения частичного разбора сохраняться в папке “Результат”.
3. Разбор (сущ, глаг, прил) (бд)
Происходит поиск
существительных
прилагательных
глаголов
Результат выполнения разбора сохраняться в папке “Результат”.
Таким образом, благодаря компьютерам сейчас удается упростить или сделать ненужными многие классические операции обработки и подготовки информации. При этом пока количественные методы анализа текстов играют существенно подчиненную и подготовительную роль для последующей вдумчивой работы специалистов, оснащенных проверенными методиками качественного исследования.
В работе были подробно расписаны алгоритм по вычислению статистических показателей, алгоритм по построению графиков. Также приведен способ поиска данных в таблице MS Excel 2007.
Мы исследовали только Золотой и Серебряный век. В перспективе хотелось бы сравнить эту результаты, эти данные с так называемыми поэтами из категории СамИздата, которых также называют поэтами-графоманами (Библиотека Машкова). Это поэты, которые вообще никем не признаны. Они мало кому известны, их никогда никто не исследовал.
Программа полезна по своему заинтересованным пользователям ПК, математикам и в большей степени лингвистам.
Таким образом, все поставленные задачи можно считать выполненными, цель работы достигнута.
Список литературы:
AlgoList – алгоритмы, методы, исходники: [электронный ресурс] Режим доступа: http://Algolist.manual.ru
Delphi World – сборник статей: [электронный ресурс]/ Н.А. Карпов. – Екатеринбург, 2004. – Режим доступа: http://delphiworld.narod.ru
http://office.microsoft.com/ru-ru/training/RZ001091922.aspx?section=6
http://wisca.ru/glossary
http://www.ibm.com/developerworks/ru/library/l-python_part_4/index.html
http://www.ruscorpora.ru/
http://мфря.рф/
Андрющенко В.М. Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический энциклопедический словарь. С.397
Арапов М.В. Квантитативная лингвистика. М.: Наука, 1988.
Бектаев К.Б. Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.
Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974.
Вирт Н, Алгоритмы и структуры данных: Пер. с англ.-М.Мир,1989.-360 с.
Головин Б.Н. Язык и статистика. М.: Просвещение, 1970.
Зиндер Л.Р. О лингвистической вероятности // ВЯ. 1958. № 2. С.121-125.
Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. М.: Университетская книга; Логос, 2007.
Зубова И.И. Информационные технологии в лингвистике. Минск: МГЛУ, 2001.
Караулов Ю.Н., Андрющенко В.М. Автоматизация лингвистических работ и создание МФ РЯ // Изв.АН СССР. 1988. Т.47. N1. С.3-11.
Карпов В.А. Язык как система. Минск: Выш. шк., 1992.
Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как средство формирования профессиональной компетентности будущего учителя математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.
Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы народов. Серия: информатизация образования. Москва: РУДН, 2011. №3. С.70-76.
Лапшин В.А. Лекции по математической лингвистики. М.: Научный мир, 2010.
Лесников Г.С., Лесникова Д.С., Лесников С.В. Математический формализм статистического анализа текстов // Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.
Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009. С.23-30.
Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры квантитативного анализа текстов // Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.
Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов // Славянская филология: исследовательский и методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.
Лесников С.В. Базовые блоки автоматизированной лексикографической системы // Вестник Челябинского государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.
Лесников С.В. Галерея словарей русского языка и текстов художественной литературы на основе новых информационных технологий в виде открытого гипертекстового свода с адекватным представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь: Изд-во Таврического экологического института, 2001. С.30-31.