Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тугаринова Настя (7).doc
Скачиваний:
11
Добавлен:
21.11.2018
Размер:
2.71 Mб
Скачать

МИНИСТЕРСТВО ОБЩЕГО ОБРАЗОВАНИЯ РФ

Государственное бюджетное образовательное учреждение высшего профессионального образования

«Иркутский государственный лингвистический университет»

ФАКУЛЬТЕТ СОЦИАЛЬНЫХ НАУК

кафедра информационных технологий

курсовая работа

Инструментальные средства разработки учебного корпуса ошибок по русскому языку

Выполнил:

Студент гр. ТПЛ1-09-01

Тугаринова А.М,

Научный руководитель:

Пуляевская А.М.

доцент кафедры информационных технологий

Иркутск

2011

Содержание Введение………………………………………………………………………..3

Глава I Понятие корпусной лингвистики и учебного корпуса….………....4

1.1 Краткий обзор разработок по созданию корпусов текстов…………….4

1.2 Учебные корпуса: определение и назначение…………………………..9

Глава II Аналитический обзор средств разработки учебного корпуса...…15

2.1. Аналитический обзор программных средств для аннотирования текста……………………………………………………………………………..15

2.2 Классификация ошибок………………………………………………….24

2.3 Примеры строения учебных корпусов………………………………….27

2.3.1 Корпус Текстов Петербургских Школьников………………………..27

2.3.2 Учебный многоязычный корпус MeLLANGE………………………..33

2.4 Структура и средства создания корпуса по русскому языку………….37

Заключение………………………………………………………………...…41

Библиография…………………………………………………………...……42

Приложение 1…………………………………………….…………………..40

Приложение 2.………………………………………………………………..41

Введение

Работа с корпусами, то есть с массивами текстов, представленными в компьютерном виде, давно уже стала одним из основных, если не основным методом лингвистических исследований, при помощи которого могут решаться самые разные задачи. Между тем отечественная лингвистика, как известно, отстаёт в этом отношении от современного состояния зарубежных исследований. Созданный еще в 1960-е годы (и то вне России) Уппсальский корпус русских текстов является одним из проектов такого рода. Он имеет ограниченный объем (1 млн. словоупотреблений). При этом он не является лингвистически аннотированным, т.е. в нём не указаны морфологические, синтаксические, семантические свойства тех или иных сегментов текста, что затрудняет поиск по нему. В то время как современная лингвистика оперирует в основном аннотированными корпусами (treebanks).

Не лучше дела обстоят с учебными корпусами. Учебных корпусов, направленных на изучение русского языка мы не нашли.

Целью данной курсовой работы является выделение инструментальных средств для создания учебного корпуса ошибок по русскому языку.

Поставленная цель предполагает решение следующих задач:

  • найти и провести анализ отечественных и зарубежных учебных корпусов;

  • исследовать классификации ошибок, на основе которых размечаются тексты для учебных корпусов;

  • показать на конкретных примерах строение учебных корпусов;

  • изучить программные средства, использующиеся для создания учебного корпуса;

  • подготовить рекомендации по разработке учебного корпуса ошибок русского языка.

Глава I. Понятие корпусной лингвистики и учебного корпуса

1.1. Краткий обзор разработок по созданию корпусов текстов

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов с использованием компьютерных технологий. Термин «корпусная лингвистика» был введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники.

По мнению В.В. Рыкова, главной целью корпусной лингвистики являются:

– лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей);

– особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.

Единицей корпусной лингвистики является корпус текстов.

Корпус текстов – это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то отрывки текстов данной проблемной области. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

При конструировании и применении корпусов единой методики для всех языков нет, так как различаются языки, традиции, технологические процессы. Но основные требования В.В. Рыков выделяет следующие:

1. Кто пользователь корпуса? (индивид, группа, лингвистическое общество).

2. Какова логическая идея, которая положена в основу корпуса?

3. С каким объёмом данных мы будем работать при составлении корпуса? На сколько это необходимо и реалистично?

4. Используем отрывки из текстов, полные тексты или то и другое.

5. Процедура отбора текстов в корпусе. Для разных целей по-разному:

– обследование речевого материала;

– сканирование текстов;

– окончательное формирование, составление корпуса.

6. Стандартизированное представление корпуса на уровне отраслевых стандартов, т.е., представление всего корпуса как продукта:

– аннотация всего текста в целом;

– унифицированное представление словесного материала текста.

7. Аннотирование, индексирование словесного материала текста.

В мировой науке первые корпуса стали возникать практически одновременно с внедрением компьютерных технологий в гуманитарные исследования, однако массовый рост корпусных исследований и создания новых корпусов приходится на период конца 1980 — середины 1990 гг. В это время появляются крупные национальные корпуса английского, итальянского, финского, чешского и ряда других языков (преимущественно, европейских).

В связи с появлением крупных лингвистических корпусов, можно выделить основные этапы развития корпусной лингвистики:

  • 1960-е: Брауновский корпус (http://icame.uib.no/brown/bcm.html), (США), 1 млн. слов;

  • 1970-е: LOB корпус (http://www.helsinki.fi/varieng/CoRD/corpora/LOB/) (Великобритания, Норвегия), 1 млн. слов;

  • 1980-е: Машинный Фонд русского языка (http://cfrl.ru/cfrl-root0.php);

  • Уппсальский корпус русского языка (Швеция);

(http://www.slaviska.uu.se/ryska/corpus-shortdescription.html), 1 млн. слов;

  • 1990-е: Британский национальный корпус

(http://www.natcorp.ox.ac.uk/), 100 млн. слов, национальные корпусы (венгерский, итальянский, хорватский, чешский, японский) объёмом 100 млн. слов;

  • Банк английского языка (http://www.harpercollins.co.uk/about-harpercollins/Imprints/collins/Pages/Collins.aspx), Birmingham (Collins Cobuild), 600 млн. слов;

  • 2000-е: Corpus of Contemporary American English

(http://corpus.byu.edu/coca/) , 400 млн. слов;

  • Национальный корпус русского языка

(http://www.ruscorpora.ru/index.html), 140 млн. слов;

  • Gigaword corpora (http://www.ldc.upenn.edu/): английский, арабский, китайский, 2 млрд. слов;

  • Oxford English Corpus (http://oxforddictionaries.com/page/aboutcorpus), 2 млрд. слов.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. «polite» (вежливый) или англ. «sunshine» (солнечный свет) встречается в БК всего 7 раз, выражение англ. «polite letter» лишь один раз, а такие устойчивые выражения как англ. «polite conversation», «smile», «request» ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Британским аналогом Брауновского корпуса является Ланкастерско-Осло-Бергенский корпус (принятое сокращение LOB). Он создавался несколько позже Брауновского, но включал тексты того же временного периода и тех же жанров, но британского варианта английского языка.

В настоящее время самым крупным является Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически.

Еще один интересный опыт создания корпуса — Бирмингемский корпус. В отличие от ранее рассмотренных примеров данный корпус основан на идеологии мониторного или дина­мического корпуса. Идеологом этого проекта стал Дж. Синклер — один из отцов современного дискурс-анализа. Мониторный корпус отличается от обычного по следующим параметрам: 1) объем такого корпуса до­стигает нескольких десятков миллионов словоупотреблений; 2) корпус постоянно пополняется и изменяется, отражая те изменения, которые происходят в языке; 3) пользователь получает возможность в автома­тическом или полуавтоматическом режиме создавать рабочие корпусы из генерального корпуса.

В Германии появление Браунов­ского корпуса дало толчок разработке проекта LIMAS-корпуса, созда­вавшегося в рамках проекта системы немецко-английского машинного перевода. LIMAS-корпус (Linguistische und MAschinelle Sprachubersetzung) состоит из 500 подкорпусов по 2 000 слово- употреблений каждый, представляющих тексты различных типов, опу­бликованные в 1968 г.Объем корпуса — 1 млн словоупотреблений. Хотя внешне LIMAS-корпус идентичен Брауновскому, жанровая классифика­ция текстов LIMAS-корпуса существенно отличается от него. В основу жанровой классификации положена тематическая классификация пред­метных областей, принятая в Немецкой библиографии за 1971 г. Всего было выделено 33 области; наиболее значимые из них — религия, куль­тура, право, политика/управление, общество, экономика, литература, искусство, история, география, медицина, техника, беллетристика. LIMAS-корпус считается представительным для современного немецкого языка.

Один из наиболее грандиоз­ных французских проектов — создание «Сокровищницы французского языка», включающей корпус текстов в 90 млн словоупотреблений. Раз­работка проекта началась в 1963 г. Ввод основного материала закончен в 1968 г. Введены тексты XIX-XX вв. Корпус уже используется для созда­ния 15-томного словаря французского языка XIX-XX вв. — «Tresor de la langue francaise», включающего 80 тыс. лексических входов [Tresor 1988].

Работа над созданием корпу­сов текстов по русскому языку начата сравнительно недавно. Первые разработки в этой области относятся к началу 1970-х годов. Реаль­но используемых корпусов сравнительно немного. В первую очередь здесь следует упомянуть «Уппсальский машинный фонд русского язы­ка», создававшийся с 1987 г. в Уппсальском университете. Общий объем корпуса — около 1 миллиона словоупотреблений. В корпус отбирались художественные тексты с начала 1960 г., специальные журнальные тек­сты — с начала 1985 г. и газетные статьи — с начала 1987 г. Цель формирования корпуса заключалась в том, чтобы представить в первую очередь лите­ратурный язык, поэтому в массив не включались образцы разговорной речи. Минимальной единицей хранения Уппсальского корпуса является целый текст, а не фрагменты текстов. Корпус состоит из 200 подмассивов по 5 000 словоупотреблений в каждом. Подмассив может состоять из одного текста. В текстах корпуса в равной пропорции представлена художественная и специальная литература. Классификация специальной литературы осуществляется по тематике (биология, химия, физика и т. д.), а художественной литературы — по авторам. Если автор тематически раз­нообразен, то в выборку включаются все важные тематические области.

Говоря о русских корпусах, нельзя не сказать несколько слов о Национальном Корпусе Русского Языка. Корпус русского языка — это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также — в сбалансированном объеме — научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм. Корпус предназначен для всех, кто интересуется вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.