- •Разработка учебного мульмодального подкорпуса немецкого языка Дипломная работа
- •Глава I понятие учебных и мультимодальных корпусов……………………………………………………………….……5
- •Глава II русско-немецкий подкорпус умко…………………29
- •Глава I понятие учебных и мультимодальных корпусов
- •1.1 Введение основных понятий корпусной лингвистики
- •1.2 Понятие учебного корпуса и лингвистической разметки
- •1.3 Краткий обзор разработок по созданию учебных корпусов текстов
- •1.4 Мультимодальные корпусы текстов
- •1.5 Обзор разработок мультимодальных корпусов и изучение их структуры
- •1.6 Учебный Мультимодальный Корпус
- •Глава II русско-немецкий подкорпус умко
- •2.1. Подготовка материалов и создание русско-немецкого подкорпуса
- •Разметка текстов и аннотирование данных
- •Анализ ошибок
- •2.4.Установление причин возникновения ошибок и поиск решения их устранения
Глава I понятие учебных и мультимодальных корпусов
1.1 Введение основных понятий корпусной лингвистики
Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий [Захаров В.П., Богданова С.Ю. «Корпусная лингвистика», Иркутск, 2011, с.7]. Термин «корпусная лингвистика» был введён в употребление в 60–х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники. В основе корпусной лингвистики лежит то, что язык - это полностью социальное явление, и его можно описать данными, основанными на опыте, т.е. в речевом акте. Это влечет за собой то, что мы не знаем, а иногда и стараемся не знать, как говорящий или слушающий понимает слова, предложения или тексты, которые он говорит или слышит. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Внутренние, немые тексты также являются текстами, но их нельзя пронаблюдать и, следовательно, они не являются социальным явлением. Большинство текстов встречаются в виде речевых актов, т.е. как взаимодействие между членами языкового общества. Отсюда следует, что корпусная лингвистика показывает полную картину, позволяя узнать соглашения языкового общества. Для корпусной лингвистики, язык – это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах.
В центре внимания корпусной лингвистики лежит языковая личность, т.е. её речевая деятельность, массовая коммуникация, проблема её описания.
Под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач [7]. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты [Рыков. В.В. «Корпусная лингвистика. Курс лекций» 2002а, c.4].
Существует большое количество разных типов корпусов, что определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов [8].
Классификация корпусов
Таблица 1
Признак |
Типы корпусов |
Тип данных |
Письменные Речевые Смешанные |
Язык текстов |
Русский Английский и т.д. |
«Параллельность» |
Одноязычные Двуязычные Многоязычные |
«Литературность», специфичность |
Литературные Диалектные Разговорные Терминологические Смешанные |
Жанр |
Литературные Фольклорные Драматургические Публицистические |
Доступность |
Свободно доступные Коммерческие Закрытые |
Назначение |
Исследовательские Иллюстративные |
Динамичность |
Динамические (мониторные) Статические |
Разметка |
Размеченные Неразмеченные |
Характер разметки |
Морфологические Синтаксические Семантические Просодические и т.д. |
Объем текстов |
Полнотекстовые «Фрагментнотекстовые» |
Хронологический аспект |
Синхронические Диахронические |
«Общность» |
Общие Одного писателя |
Структура |
Центральные и архивные Ядерные и периферийные |