Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом.doc
Скачиваний:
44
Добавлен:
31.05.2015
Размер:
2.27 Mб
Скачать

Глава I понятие учебных и мультимодальных корпусов

1.1 Введение основных понятий корпусной лингвистики

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий [Захаров В.П., Богданова С.Ю. «Корпусная лингвистика», Иркутск, 2011, с.7]. Термин «корпусная лингвистика» был введён в употребление в 60–х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники. В основе корпусной лингвистики лежит то, что язык - это полностью социальное явление, и его можно описать данными, основанными на опыте, т.е. в речевом акте. Это влечет за собой то, что мы не знаем, а иногда и стараемся не знать, как говорящий или слушающий понимает слова, предложения или тексты, которые он говорит или слышит. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Внутренние, немые тексты также являются текстами, но их нельзя пронаблюдать и, следовательно, они не являются социальным явлением. Большинство текстов встречаются в виде речевых актов, т.е. как взаимодействие между членами языкового общества. Отсюда следует, что корпусная лингвистика показывает полную картину, позволяя узнать соглашения языкового общества. Для корпусной лингвистики, язык – это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах.

В центре внимания корпусной лингвистики лежит языковая личность, т.е. её речевая деятельность, массовая коммуникация, проблема её описания.

Под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач [7]. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты [Рыков. В.В. «Корпусная лингвистика. Курс лекций» 2002а, c.4].

Существует большое количество разных типов корпусов, что определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов [8].

Классификация корпусов

Таблица 1

Признак

Типы корпусов

Тип данных

Письменные

Речевые

Смешанные

Язык текстов

Русский

Английский и т.д.

«Параллельность»

Одноязычные

Двуязычные

Многоязычные

«Литературность»,

специфичность

Литературные

Диалектные

Разговорные

Терминологические

Смешанные

Жанр

Литературные

Фольклорные

Драматургические

Публицистические

Доступность

Свободно доступные

Коммерческие

Закрытые

Назначение

Исследовательские

Иллюстративные

Динамичность

Динамические (мониторные)

Статические

Разметка

Размеченные

Неразмеченные

Характер разметки

Морфологические

Синтаксические

Семантические

Просодические и т.д.

Объем текстов

Полнотекстовые

«Фрагментнотекстовые»

Хронологический аспект

Синхронические

Диахронические

«Общность»

Общие

Одного писателя

Структура

Центральные и архивные

Ядерные и периферийные