Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Titulny_list_VKR_na_2011-12_uch_god.doc
Скачиваний:
13
Добавлен:
31.05.2015
Размер:
2 Mб
Скачать

Глава I понятие учебных и мультимодальных корпусов

1.2 Введение основных понятий корпусной лингвистики

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий [Захаров В.П., Богданова С.Ю. «Корпусная лингвистика», Иркутск, 2011, с.7]. Термин «корпусная лингвистика» был введён в употребление в 60–х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники. В основе корпусной лингвистики лежит то, что язык — это полностью социальное явление, и его можно описать данными, основанными на опыте, т.е. в речевом акте. Это влечет за собой то, что мы не знаем, а иногда и стараемся не знать, как говорящий или слушающий понимает слова, предложения или тексты, которые он говорит или слышит. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Внутренние, немые тексты также являются текстами, но их нельзя пронаблюдать и, следовательно, они не являются социальным явлением. Большинство текстов встречаются в виде речевых актов, т.е. как взаимодействие между членами языкового общества. Отсюда следует, что корпусная лингвистика смотрит на полную картину, чтобы узнать соглашения языкового общества. Для корпусной лингвистики, язык – это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах.

В центре внимания корпусной лингвистики лежит языковая личность, т.е., её речевая деятельность, массовая коммуникация, проблема её описания.

Под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. [В.П. Захаров, С.Ю. Богданова, «Корпусная лингвистика», с.7]. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты.

Существует большое количество разных типов корпусов, что определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов.

Классификация корпусов Таблица 1

Признак

Типы корпусов

Тип данных

Письменные

Речевые

Смешанные

Язык текстов

Русский

Английский и т.д.

«Параллельность»

Одноязычные

Двуязычные

Многоязычные

«Литературность»,

специфичность

Литературные

Диалектные

Разговорные

Терминологические

Смешанные

Жанр

Литературные

Фольклорные

Драматургические

Публицистические

Доступность

Свободно доступные

Коммерческие

Закрытые

Назначение

Исследовательские

Иллюстративные

Динамичность

Динамические (мониторные)

Статические

Разметка

Размеченные

Неразмеченные

Характер разметки

Морфологические

Синтаксические

Семантические

Просодические и т.д.

Объем текстов

Полнотекстовые

«Фрагментнотекстовые»

Хронологический аспект

Синхронические

Диахронические

«Общность»

Общие

Одного писателя

Структура

Центральные и архивные

Ядерные и периферийные

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследования разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык [Соснина Е.П. «Корпусная лингвистика и корпусный подход в обучении иностранному языку»]. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition). Учебные корпусы текстов изначально создавались с целью мониторинга и анализа ошибок, допускаемых при овладении инофонами чужим языком. Корпусные технологии позволили обнаружить наиболее распространенные ошибки в словоупотреблении и словообразовании, характер которых заставил пересмотреть содержание многих учебных материалов, поскольку выявленные отклонения от нормы свидетельствовали о влиянии интерференции родных языков инофонов и так называемой «промежуточной грамматике» или интеръязыка, от чего не предупреждает ни один традиционный учебник или учебный словарь. На основе исследований в LC(LearnerCorpora) создаются словари и учебники нового типа, включающие предупреждающие ошибки комментарии.

LC-технологии совершенствуются с каждым годом, в результате чего появляются все новые и новые направления в данной области. Отметим основные из них:

  • При сохранении основных принципов проектирования и строительства LC развитие технологий предполагает новые форматы и процедуры. Многие корпусы включают ауди и видео материалы, сканы и pdf-файлы оригинальных рукописей информантов, что требует разработки процедур их встраивания в корпус инструментов дальнейшей обработки.

  • Кроме обязательной морфологической и синтаксической разметки, возникает необходимость в просодической разметке аудио и видео материалов. Новые запросы создателей LC – семантическая и дискурсивная разметки.

  • Специфическая для LC задача – разметка ошибок. Достаточной трудоемкой задачей считается сам процесс обнаружения ошибок в тексте, который обычно проводится вручную.

  • LC перестают быть только базой для извлечения ошибок, но становятся полезным и эффективным средством обучения. Примером последнего может быть обучающая система Т.Кобба, созданная на основе оригинального учебного корпуса.

  • Большинство известных LC фиксируют определенный этап языковой компетенции. Новое направление в LC – создание лонгитюдных корпусов, накопление текстов одного и того же автора (авторов) в течении некоторого времени, что позволяет представить процесс овладения языком в динамике.

Практически все учебные корпусы являются лингвистически размеченными. (Лингвистическая) разметка (англ. tagging, annotation) – это процесс или результат приписывания текстам и их компонентам специальных меток. [Geoffrey Leech. 1993. Corpus annotation schemes. Literary and Linguistic Computing, 8(4):275–281.]

Лингвистическая разметка является одним из основных понятий корпусной лингвистики. Разметка даёт возможность идентифицировать тексты по различным параметрам, позволяя осуществлять осмысленный поиск по корпусу.

Разметка должна быть независима от текста: должна быть возможность убрать разметку и просмотреть текст без неё и, наоборот, вычленить только разметку. Принципы разметки и их разработчики должны быть известны конечному пользователю. Пользователь должен быть поставлен в известность о том, что разметка не является безошибочной, а представляет собой лишь потенциально полезный инструмент. В основу разметки должны быть положены общепринятые и, по возможности, теоретически нейтральные лингвистические принципы. И, наконец, ни одна разметка не может априорно считаться стандартом.

Существует несколько видов разметки. Экстралингвистическая, или метаразметка, сообщает сведения о данных. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика). Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка нужна для исследования условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка. Большое внимание уделяется стандартизации метаразметок:

  • проект TEI (Text Encoding Initiative),

  • рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards),

  • стандарт CES (Corpus Encoding Standard),

  • стандарт XCES (Corpus Encoding Standard for XML),

  • проект ISLE (International Standards for Language Engineering),

  • стандарт CDIF (Corpus Document Interchange Format, BNC).

Собственно лингвистическая разметка делится на:

  • морфологическую (выделение аффиксов, сложных слов и т.п.),

  • лемматизацию (указание для каждой словоформы из текста ее исходной формы),

  • морфо-синтаксическую, или частеречную (part-of-speech-tagging) (выделение основ, определение части речи и признаков грамматических категорий),

  • синтаксическую (характер синтаксической связи, тип предложения, член предложения и т.п.),

  • семантическую (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.),

  • дискурсивную (реплики, коммуникативные акты и т.п.).

Обычно корпус аннотирован сразу по нескольким или по всем видам разметки. Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ.

Новым направлением в корпусной лингвистике является создание мультимодальных (мультимедийных) корпусов текстов.

Мультимодальный корпус – это «аннотированная коллекция взаимосвязанного контента (выровненных текстов, аудио- и видеозаписей актов коммуникации), используемая в качестве модели дискурса». [Foster M.E., Oberlander J. Corpus-based generation of head and eyebrow motion for an embodied conversational agent // Language Resources and Evaluation № 41, 2007.] Корпус такого рода, кроме текстовой составляющей, включает видео- или аудиозаписи процесса коммуника­ции с привязкой к тексту. Такой корпус представляет языковой и коммуникативный материал, отражающий более чем одну модальность восприятия. Являясь «аннотированной коллекцией взаимосвязанного контента, мультимодальный корпус может быть использован в качестве модели дискурса» .[Foster M.E., Oberlander J. Corpus-based generation of head and eyebrow motion for an embodied conversational agent // Language Resources and Evaluation № 41, 2007.] Тексты выравнивают с их расшифровками, что позволяет исследовать не только языковые единицы, но и речевые действия говорящего в различных ситуациях общения, его неречевое поведение (мимику, жесты, позы).

Интеграция текстовой информации, аудио- и видеозаписей коммуникативных актов в корпусе обеспечивает платформу для исследования целого спектра явлений в области лексики, просодии, использования невербальных средств, а также для изучения способов взаимодействия этих явлений в  естественной речи. Кроме того, мультимодальные корпусы обладают высоким потенциалом для практического применения в таких областях как лексикография, построение систем машинного перевода, создание интерфейсов, построение систем искусственного интеллекта и многих других.

Также как и в учебных корпусах, тексты мультимодальных корпусов имеют разметку, соответствующую целям корпуса. В отличии от корпусов письменной речи, мультимодальные корпусы в дополнении к выше представленным типам разметки имеют свою разметку, которая позволяет выделить интонацию, ударение (фонетические компоненты) и разметку, обозначающую мимику, жесты, телодвижения и т.д.

    1. Краткий обзор разработок по созданию корпусов текстов

На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Изучение английского языка достигло в этой области значительных успехов. Международный Учебный Корпус Английского языка (TheInternationalCorpusofLearnerEnglish) является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами 3-4 курсов продвинутого языкового уровня. Основная цельICLE– исследование языка межнациональной коммуникации студентов, изучающих этот язык.

Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран, а именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными под корпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках.

В дополнение к разрешению сравнения учебного письма различного происхождения корпус может использоваться в комбинации с LOCNESS для того, чтобы сравнить английский язык носителя и студента, изучающего английский. Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.

Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус (The Cambridge Learner Corpus). Как часть Кембриджского Международного Корпуса, Кембриджский Учебный Корпус это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возраста, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета.CICявляется коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL (http://www.cambridge.org/).

Среди отечественных разработок в данной области, одним из самых известных является Корпус Текстов Петербургских Школьников.

Объём корпуса составляет 38.122 словоупотребления. Сбор материала проходил в школах Санкт-Петербурга и осуществлялся в рамках педагогической практики студентами 4 курса филологического факультета РГПУ им. А. И. Герцена. В качестве информантов (авторов текстов) выступили 78 учащихся 7, 9-11 классов. Родной язык информантов – русский. Возраст учащихся – от 13 до 17 лет (средний возраст 15.4 лет; стандартное отклонение – 0,8 года). Жанры текстов – эссе и письмо другу (письменные тексты), монолог и диалог (устные тексты).

В таблице 4 представлены основные характеристики корпуса.

Таблица 4. Характеристики КТПШ

Признак

Тип корпуса

Тип данных

Смешанный (устные и письменные)

Язык текстов

Английский

«Параллельность»

Одноязычный

Специфичность

Содержит тексты обучающихся английскому зыку

Доступность

Свободный доступ

Назначение

Исследовательский

Динамичность

Мониторный

Разметка

Размеченный

Характер разметки

Синтаксическая разметка ошибок (errortagging)

Объем текстов

Полнотекстовый

Хронология

Диахронический

«Общность»

Общий

Работа по созданию корпуса текстов обучающихся английскому языку проводилась в рамках программы «Методология проектирования гуманитарных технологий извлечения информации в условиях инновационной образовательной среды: коммуникативный аспект»

Руководитель программы: Беляева Лариса Николаевна, доктор филологических наук, профессор, заслуженный деятель науки РФ, почетный работник высшего профессионального образования РФ, заведующая кафедрой прикладной лингвистики

Работа над программой проводилась в рамках инновационного образовательного проекта РГПУ им. А.И. Герцена «Создание инновационной системы подготовки специалистов в области гуманитарных технологий в социальной сфере» (2008 г).

На данном сервисе представлены тексты петербургских учащихся, разделенные по типам и жанрам и синтаксически размеченные. В корпусе есть возможность свободного наполнения, т.е. любой пользователь может разместить в нем свой текст.

Разметка текста на ошибки

Разметка ошибок в КТПШ была выполнена полуавтоматическим способом с помощью программ Microsoft Word и Advanced Auto Renamer. Для того, чтобы разместить размеченный вариант текста нужно следовать предложенной в корпусе инструкции:

Загрузите на локальный компьютер предлагаемый ниже список ошибок.

  1. Скопируйте текст, который будете размечать в отдельный файл редактора Microsoft Word 2007. (! в другом файле у Вас должен остаться текст без разметки!) Убедитесь, что в настройках "Правописание" - "Набор правил" выбран пункт "Строго (все правила)".

  2. Кликните на ошибочном варианте слова правой кнопкой мыши, и в открывшемся меню выберите пункт "Грамматика"

  3. Выделите слово с ошибкой цветом, соответствующим типу ошибки. Для этого воспользуйтесь инструментом "маркер".

  4. Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках.

  5. Пройдите по ссылке http://www.whitesmoke.com/online-writing-assistant, разместите в диалоговом окне сайта ваш неразмеченный текст

  6. Осуществите разметку текста, нажав на кнопку "check spelling"

  7. Выделите в вашем документе слово с ошибкой цветом, соответствующим типу ошибки (см. список ошибок).

  8. Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках.

  9. По окончании работы воспользуйтесь программой Advanced Auto Renamer, присвоив ошибкам соотвествующие названия.

  10. Сохраните документ в формате HTML присовив ему имя типа «textcode»_error tagged.htm (веб-страница с фильтром);

  11. Отправьте полученный документ на электронный адрес администрации сайта. Ваш текст будет добавлен в корпус после рассмотрения его администратором сайта.

Практически все уже существующие на данном сервисе тексты размечены на ошибки. На рисунке показан фрагмент размеченного текста.

Кроме разметки на ошибки, сервис предлагает пользователю разметить текст синтаксически. Для синтаксической разметки текстов корпуса предлагается использовать сервис Machinese Syntax © компании Connexor Oy. Для того, чтобы разместить размеченный вариант текста нужно также проследовать предложенной инструкции.

Создание конкорданса

Для создания конкордансов используется программа AntConc. В корпусе дано подробное описание этой программы, а также ссылка для скачивания и тексты для работы с программой.

Наполнение сервиса

Для того чтобы добавить текст в корпус, сначала нужно выбрать раздел Corpus Builder (конструктор корпуса).

  • Перед тем как добавить свой текст, нужно заполнить следующие поля:

  • тип текста (эссе, письмо другу, монолог, диалог),

  • уникальный идентификатор (ID),

  • возраст, пол, школа, класс,

  • родной язык, второй язык,

  • дополнительное образование (подготовительные курсы, репетитор, не занимается),

  • уровень владения языком (новичок, начальный, ниже среднего, средний, выше среднего, продвинутый),

  • тема

  • и последнее, вставить свой текст в соответствующее поле.

    1. Обзор разработок мультимодальных корпусов и изучение их структуры

Первым учебным корпусом устной речи стал корпус LINDSEI. Он является разговорной копией ICLE. Первая версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время расширяется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения.

В России среди мультимодальных корпусов текстов самым популярным является подкорпус Национального Корпуса Русского Языка. Мультимедийный русский корпус (МУРКО) – это подкорпус Национального корпуса русского языка, который содержит устные русские тексты, выровненные с соответствующими аудио- и видеофрагментами. МУРКО позволяет изучать устную речь, используя не только ее письменную фиксацию, но и ее реальное звучание и жестовое сопровождение. МУРКО рассчитан, прежде всего, на фонетистов, интонологов, специалистов по жестикуляции, но будет также полезен преподавателям русского языка, прежде всего, как иностранного.

В настоящее время основу корпуса составляют видеоматериалы из отечественных фильмов аудиозаписи публичной и непубличной устной речи. Технология подготовки материалов для корпуса предполагает расшифровку видео и аудиоматериалов, произведенную с высокой степенью подробности (т.е. включая не только собственно слова, но и междометия, возгласы, а также оговорки); фрагментирование видео и аудио материалов на относительно самостоятельные отрезки (длительностью от10 до 20секунд); фрагментирование текстовых расшифровок, или транскриптов; выравнивание мультимедийных и текстовых фрагментов между собой.

Клипотексты снабжены принятой в Национальном корпусе русского языка аннотацией - морфологической, семантической, социологической, акцентологической. Поскольку разметка клипотектов стандартная, то по ним возможен обычный для Национального корпуса поиск – по морфологическим, семантическим категориям, по социологическим параметрам и по их комбинации.

Наряду с  метатекстовой разметкой, которая относится к тексту как целому, каждый клипотекст или клип считается отдельным текстом и описывается как отдельный текст с точки зрения его автора, названия,даты создания, жанра, хронотопа и некоторых других.

Однако, кроме того, добавляются и другие, дополнительные характеристики, которые и раскрывают в полной мере своеобразие мультимедийного корпуса по сравнению, например, со стандартным устным подкорпусом. Прежде всего, предлагается некоторая система параметров, характеризующая речевую составляющую клипотекста.

  • тип ситуации

  • тип речевых действий (вопрос, просьба, извинение, совет и пр.)

  • полнота речевого действия (полное, незаконченное, прерванное)

  • манера говорения (нормальная речь, шепот, крик, диктовка)

  • наличие и типы повторов однократный,  многократный,  переспрос,  цитирование, передразнивание);

  • наличие и типы междометий и вокальных жестов (причмокивание, цоканье, присвистывание, подзывание и под.);

  • характеристика говорящих (количество, пол, язык, на котором говорят).

Уникальный материал и система разметки делают мультимедийный корпус мощным исследовательскими обучающим ресурсом. Его особенность в том, что методика использования существующих пособий ограничивается учебными задачами и предполагает в основном имитационные или имитационно-аналитические упражнения. Что касается корпуса, то в нем аудио- и видеоматериалы, выровненные с текстом, снабжены сложной лингвистической и металингвистической разметкой и снабжены инструментом поиска – и это расширяет возможности их использования. Корпус благодаря этому можно использовать не только в учебных курсах, но и в научно-исследовательских целях.

Еще один пример устного корпуса – проект «Один речевой день». Данный проект является первой попыткой серьезного изучения реального русского языка, на котором не написано ни одной книжки, но на котором мы все говорим. Корпус «Один речевой день» (ОРД) представляет собой один из блоков Звукового корпуса русского языка (ЗКРЯ), работа над которым ведется на факультете филологии и искусств СПбГУ. Принцип, положенный в основу организации этой части корпуса, условно можно назвать «принципом невода»: забрасываем широкую сеть в среду носителей языка, вытягиваем все, что в нее попало, и делаем это объектом многоуровневого анализа.Принцип неводапозволяет увидеть реальную, естественную, а не искусственно созданную в лабораторных условиях, жизнь, отраженную в речи. В целом корпус ОРД характеризуется в настоящее время такими количественными показателями: 320 часов звучания, полученные от 40 информантов (20 мужчин и 20 женщин). Звукозаписи переформатированы, убраны длительные (больше 5 минут) шумовые фрагменты, не содержащие речи. Звукозаписи разрезаны на коммуникативные эпизоды по принципу общих условий коммуникации и качества звукозаписи. В результате было получено 994 файла-эпизода общей продолжительностью 268 часов. Подготовлены методики многоуровневого аннотирования данных на лингвистическом и паралингвистическом уровнях. Осуществлена расшифровка 34 часов звукозаписей для 40 информантов и их многоуровневое аннотирование в профессиональной программе ELAN. В результате расшифровки получены тексты общим объемом в 244 075 словоупотреблений на уровне Frase (реплики говорящих), которые относятся к 125 эпизодам и соответствуют 33,87 часам непрерывной звучащей речи. Для 20 информантов-мужчин получено 106 109 словоупотреблений на уровне реплик, что соответствует 15,10 часам непрерывной речи, для 20 информантов-женщин – 137 966 словоупотреблений, что соответствует 18,77 часам.

Реплики говорящих содержат синтагматическое и фразовое членение.

По материалам расшифрованных записей 40 информантов был получен частотный словник всех использованных в речи словоформ и выполнен первичный анализ этих данных. Начато сегментирование речевого материала на лексическом уровне. Осуществлена сегментация 14 884 слов для 5 информантов (S01, S19, S24, S35, S37) (147 минут звучания). Расшифрованный материал корпуса включает более чем 32 000 фраз. Подавляющее большинство высказываний в материале исследования оказались утвердительными (23 494), восклицательных и вопросительных высказываний встретилось около девяти тысяч 

Получена выборочная реальная транскрипция для 1000 словоизменительных морфем из речи 4 информантов. Морфемное аннотирование включает три уровня – орфографическую запись морфемы, её функциональный тип и реальную фонетическую транскрипцию.

По мере сбора и обработки материалы ЗКРЯ традиционно передаются в устный подкорпус Национального корпуса русского языка («Из материалов корпуса “Один речевой день”, подготовленного группой А. С. Асиновского»), что делает их доступными для самого широкого круга пользователей.

Корпус устных рассказов на русском языке был создан для того, чтобы показать, какие отдельные признаки жестов-иллюстраторов указывают на наличие границ сегментов дискурса. Стимулом написания рассказов послужил 6-ти минутный видеосюжет «Фильм о грушах» (“Pear film”). Об этом фильме студентами МГУ было написано 8 рассказов общей продолжительностью 20 минут. В целом, в корпусе было 595 элементарных дискурсивных единиц, которые обычно совпадают с простым предложением, и 327 иллюстративных жестов, которые понимаются как носители информации, выступая в качестве знаковых кинетических единиц выражения и передачи информации. На примере из корпуса исследователям удалось показать, как отдельные признаки жестов и положения рук могут добавлять дополнительную информацию касательно организации дискурса, состояния говорящего и передачи информации.

    1. Учебный Мультимодальный Корпус Русского Языка

Корпус, разрабатываемый в Иркутском государственном лингвистическом университете, который был назван УМКРЯ (Учебный Мультимодальный Корпус Русского Языка), в настоящее время содержит 28 видеозаписей неподготовленных учебных диалогов носителей и «не носителей» русского, китайского и немецкого языков по определенным темам, размеченных в программе ELAN. В качестве подкорпуса создаваемого мультимодального корпуса разрабатывался параллельный одноязычный подкорпус, в котором между собой выравнивались тексты на одном из языков, произнесённые носителями и «не носителями» языка.

Выполнение данного проекта относится к сфере одного из восьми приоритетных направлений развития науки РФ «Информационно-телекоммуникационные системы» в русле информационных технологий и создания электронных баз данных и преследует несколько важных целей:

1) Лингводидактическая цель проекта заключается в разработке новых методик преподавания русского и китайского языков как иностранных на эмпирическом материале нового поколения, в том числе с учетом типичных ошибок при построении устных высказываний на иностранном языке студентами старших курсов. Данный корпус предназначен, в первую очередь, для выработки методических рекомендаций по обучению китайскому языку русских студентов и обучению русскому языку китайских студентов, поскольку позволяет найти пути устранения ошибок в ходе учебных занятий и самостоятельной работы студентов.

2) Лингвистическая цель заключается в анализе различных языковых и сопутствующих им паралингвистических явлений, зафиксированных в подкорпусах, созданных на основе видеозаписей диалогов носителей русского и китайского языков. С помощью корпусов текстов можно не только с большей точностью анализировать отдельные факты реализации языковых единиц, но и выявлять общие закономерности, присущие языковой системе. В частности, очевидным образом звучащий корпус является подспорьем для исследователей фонетики и орфоэпии.

В отличие от мультимедийных корпусов, которые основываются на уже существующем видеоматериале, цели УМКРЯ требовали создания собственных видеозаписей. Первоначальное проектирование мультимодального корпуса включает определениесубъектовкоммуникации, физическихусловий, при которых будет происходить запись,инструментального обеспеченияпроцесса записи, а такжевыбор тем, которые будут обсуждаться коммуникантами в процессе разговора.

В соответствии с ранее определенной спецификой корпуса были выбраны участники-волонтеры из числа студентов 3-4 курса изучающих китайский язык. От всех студентов было получено письменное согласие на участие в проекте, проведение видеозаписи и дальнейшее использование видеозаписи в научных и учебных целях.

Выбор тем диалогов осуществлялся на основании исследования, выявившего список общих разговорных тем, которые являются актуальными в независимости от изучаемого языка и необходимыми для установления контакта и ведения бесед в стандартных ситуациях: «Ориентирование в городе»; «В аэропорту»; «Знакомство»; «Питание. Ресторан»; «Магазины. Покупки».

Для каждой темы был составлен опорный план диалога, содержащий несколько (обычно 4-5) пунктов, которые так или иначе должны были быть включены в текст диалога. Несмотря на заданные заранее темы, речь студентов можно назвать спонтанной, так как темы сообщались участникам лишь незадолго до момента записи, при этом уточнялось, что предложенный план является лишь опорным, и участникам самим предлагалось развить тему в любом направлении. Записи было решено проводить в помещениях университета.

В результате анализа существующих программных продуктов для создания корпуса была выбрана программа ELAN. На основании сопоставительного анализа функциональных возможностей нескольких программ, мы пришли к выводу, что программа ELAN обладает рядом преимуществ. Во-первых, она является бесплатной и свободно распространяемой. Во-вторых, поддерживает русский язык для интерфейса. В-третьих, обладает продвинутыми поисковыми возможностями (например, позволяет производить структурированный поиск по нескольким файлам).

Параллельный подкорпус

Главными задачами при построении параллельного мультимедийного подкорпуса были:

  • Выбор оптимального способа хранения корпусных данных

  • Разработка метода выравнивания корпуса

  • Создание корпус-менеджера

Для хранения данных мультимедийного параллельного корпуса был выбран формат баз данных Microsoft Access 2003. Данный формат позволяет наглядно представить структуру корпуса, упростить процесс его заполнения и выравнивания, является широко известным, что позволит любому уверенному пользователю ПК работать с корпусом. Каждая таблица корпуса имеет жесткую структуру и хранит в себе данные одной языковой ситуации.

Поскольку исходные тексты характеризуются высокой степенью спонтанности, произвести выравнивание по предложениям не представляется возможным. По этой причине за единицу выравнивания было решено принять тематический блок – часть текста, относящуюся к одной теме. Граница тематического блока может проходить как между репликами коммуникантов, так и в рамках реплики одного из коммуникантов.

Каждый тематический блок записывается в отдельную ячейку таблицы. Выравнивание между текстами осуществляется на основе текста носителей языка: соответствующие друг другу тематические блоки записываются в рядом стоящие ячейки. Если же тематическому блоку из одного текста невозможно поставить в соответствие ни один блок из другого текста, то рядом стоящая ячейка остаётся пустой.

Наряду с самим корпусом на платформе Delphi XE был создан корпус-менеджер, позволяющий удобно просматривать мультимедийный параллельный корпус. Данный корпус-менеджер в наглядном виде представляет текстовую часть корпуса со всей разметкой и выравниванием по тематическим блокам, позволяет воспроизвести отрывок видео, относящийся к тому или иному блоку корпуса, а также позволяет просматривать метаданные.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]