Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
I часть.doc
Скачиваний:
33
Добавлен:
16.08.2019
Размер:
879.62 Кб
Скачать

Опыт разработки корпусов текстов

Английский язык:

  • наиболее известным фундаментальным корпусом английского языка считают Брауновский корпус американско-английского (1962-1963). Был создан под руководством американского ученого Френсиса, включал 1 миллион словоупотреблений, состоял из 500 текстов по 15 жанрам американо-английского.

В 80-х годах появилась компьютерная версия этого корпуса и долгое время была эталоном для разработки фундаментов языков

  • Лондонско-Лунский Корпус - его цель наиболее полно зафиксировать особенности грамматики английского языка в речи взрослого человека и впервые в 80-х годах на базе этого корпуса была выпущена полная грамматика английского языка.

  • Ланкасторско-Осло-Бергерский Корпус – это британский аналог Брауновский корпус, создан для сравнительных исследований американского и Британского вариантов английского языка.

  • Бермингемский корпус – является одновременно мониторным корпусом, и объединял все варианты английского языка. Это был наиболее полный корпус английского языка. Его руководителем был Джорж Синклер (основатель идеологии дискуссионного анализа). Данный корпус использовался для создания полного словаря английского языка. В 90-х годах и появились наиболее полнее фундаментальные корпуса английского языка, такие как:

  • Британский национальный корпус – создание которого было инициировано в Оксфорде и цель его наиболее полно представить сведения в британском варианте английского языка корпус считается развивающимся проект пополнения этого корпуса получил название Bank of English.

Каждое лексикографическое издательство старается создать свой корпус текста (например Лондон, Оксфорд, Кембридж). Кроме того развиваются разные специализированные корпусы, например параллельные корпусы, корпусы Массмедиа. Также развивается американский национальный корпус и более мелкие корпусы- например Business Letters Corpus.

Немецкий язык:

  • Наиболее известным является корпус LIMAS , который состоит из 500 подкорпусов, причем каждый из которых разбит на 33 области. Это был самый репрезентативный корпус современного немецкого языка

  • Корпус немецкой разговорной речи – «Gran deutsch Corpus» состоял из интервью взрослых людей письменной и устной форме.

  • Фрайбургский корпус – его проблемная область – это бытовая и официальная речь. Содержит записи диалогов, туда включены различные справочники, газетные тексты и классические тексты немецкого языка язычных писателей.

Кроме этого есть и другие корпусы, например, «Корпус публичной политики и политических выступлений «Vende» и др.

Русский язык:

  • Самый известный корпус русского языка был Упсальский корпус (г. Тюбенген). Был разработан по модели Брауновского корпуса и до 2000 г. был самым репрезентативным корпусом русского языка. Состоял из 200 корпусов, содержал художественные тексты, журнальные и газетные тексты.

С 2002 г. в Российской академии наук начался проект по созданию репрезентативного корпуса фундаментального для русского языка. Сначала было название «БОКР» (www.ruscorpora.ru)

Существуют и другие доступные корпусы русского языка «Национальный корпус русского литературного языка» (С-П), «Компьютерный Корпус русских газет 20-го века» (МГУ), «Хельсинский корпус русских текстов» (ХАНКО)

  1. Квантитативная лингвистика (Статистическая лексикография. Лингвостатистика). Лингвистический мониторинг функционирования языка. Дешифровка кодированных текстов. Авторизация текста (стилеметрия). Статистика при компьютерном моделировании языка и речи. Закон Ципфа.

Квантитативная лингвистика (Статистическая лексикография. Лингвостатистика)

Статистическая лингвистика (лингвостатистика,

квантативная/количественная/вычислительная лингвистика, computational linguistics)

Данное направление является смежным направлением лингвистики и математики, т.к. использует статистические методы анализа языка.

Основной задачей является раскрытие закономерностей языка и речи и изучение этих закономерностей касательно построения текста. Исследования ведутся в 2-х основных направлениях:

1. Разработка статистических моделей на материале того или иного языка;

2. Поиск некоторой универсальной математической общеязыковой модели.

Исследования статистических методов в языкознании позволяет дополнить известную структурную модель языка вероятностными (частотными) компонентами.

Основные области приложения структурно-вероятностной модели языка.

Лингвистический мониторинг функционирования языка. Его задача: выявление общих особенностей функционирования языковой системы в конкретном типе дискурса (например, в научном, политическом, газетном и т.д.).

В качестве предмета мониторинга могут выступать, например, такие явления естественного языка, как типы языковых ошибок, неологизмы, метафоры, а также специфические особенности использования в текстах тех или иных видов лексики грамматических форм и стилистических конструкций. Технологии лингвистического мониторинга основываются на двух основных предпосылках: репрезентативности, регулярности и периодичности анализа данных и на большом материале для доказательства лингвистических выводов, например, на базе лингвистических корпусов.

Лингвистический мониторинг в настоящее время широко используется и его компьютерное обеспечение и технологии позволяют давать количественную оценку исследуемым лингвистическим явлениям, выявляя их распределение во времени по источникам, авторам, стилям и дискурсам.

Информация о статистических закономерностях функционирования языка лежит в основе некоторых методик анализа текстовых данных, например, методик контент-анализа, который используется для выявления структуры состояния общественного сознания и с помощью ее появляется возможность по частоте употребления тех или иных лексем реконструировать ценностные ориентации общества, выявить актуальные темы публичной политики и МИ и воздействовать с помощью текстов на общество.

2)Компьютерное моделирование языка и речи. Многие компьютерные программы лингвистической направленности. Машинные переводчики, системы информационного поиска, системы автоматического реферирования текстов используют алгоритмы; базируются на частотном анализе.

Дешифровка кодов – базируется на частоте. В процессе дешифровки используются данные о частоте употребления графем, морфем и слов, а также об их взаимном расположении друг с другом. В настоящее время разрабатываются алгоритмы дешифровки, основанные на частоте распределения элементов кодированного текста (алгоритм Сухотина, Харриса, статистико-комбинаторные алгоритмы и др.).

Дешифровка используется для решения следующих задач, популярных в информатике:

  • взлом, шифр

  • определение языка сообщения – производится по частоте употребления букв или символов. Для этого необходимо знать частотность символов того или иного языка.

Дешифровка кодов базируется на ТВиМС. В процессе дешифровки используются данные о частоте употребления графем, морфем и лексем, а также об их взаимном расположении друг с другом.

В настоящее время разрабатываются алгоритмы дешифровки, основанные на частоте распределения элементов кодирования текста (алгоритмы Сухотина, Маркова, статистико-комбинаторные алгоритмы Харриса и др.)

Дешифровка в лингвистике используется для решения следующих задач:

a. Определение языка сообщения. В живых языках буквы встречаются с разной частотой и можно построить диаграммы распределения частот символов, характерных для каждого языка. Производится так называемая селекция, т.е. текст сообщения анализируется как поток символов и высчитывается частота встречаемости (вес) каждого символа.

Иногда таблица для удобства нормализуют, т.е. вес символов делится на общее количество символов данного текста. Минимальная длина текста для анализа равняться примерно 3 алфавита. Для русского язык около ста символов.

Таблица частотности для трех языков

Англ

Нем

Фр

E – 12,86

E – 19,8

E – 17,7

T – 9,7

N – 10,2

S – 8,2

A – 7,8

I – 8,2

A – 7,6

b. Взлом шифров. Вычисление статистического веса одиночных символов можно применить для взлома шифров.

Крептоаналитик должен владеть языком и знать основы статистики. Для взлома более сложных шифров анализ усложняется и часто используется аппарат, предложенным русским математиком А.А. Марковым еще в 19 веке.

Марков предложил теорию динамичной вероятности, которая позволяет предсказать поведение некоторых объектов с течением времени, при том, что это поведение регулярно. Модель Маркова активно используется в математической лингвистике. (Цепи Маркова – посмотреть).

Кроме того, очень часто для взлома шифров применяют очень простые методы: методы грубой силы или полного перебора. Используется значение психосоциальной инженерии, которая основывает свои методы на том, что фактически 75% информации лежит в открытых источниках.

Авторизация текста (установление авторства). Это классическая проблема филологического исследования, которая рассматривается в рамках так называемой количественной стилистики (или стилеметрии).

Основатель этой области – лингвостатистик М.А. Морозов. Он в 1915 году опубликовал работу, которая называется «Лингвистические спекторы. Средства отличия плагиатов от истинных произведений, или стилеметрический этюд». Автор предлагал при количественном анализе текста опираться не на тематическую лексику, а на служебные слова и слова тематически нейтральные, т.е. именно особенности употребления служебных слов и определенные стилистические конструкции формируют авторский стиль и не поддается имитации.

Перспективным направлением в этой области является использование при авторизации текста «теории распознавания образов».При таком подходе авторский стиль описывается как некоторое множество количественных параметров (длина, количество слов в предложении, длина предложения, количество вложенных синтаксических структур и т.д.). каждый анализируемый текст при этом выражается через вектор, координаты которого задаются значениями выбранных параметров, а сходство векторов определяет сходство стилей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]