Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом.doc
Скачиваний:
44
Добавлен:
31.05.2015
Размер:
2.27 Mб
Скачать

1.4 Мультимодальные корпусы текстов

Новым направлением в корпусной лингвистике является создание мультимодальных (мультимедийных) корпусов текстов.

Мультимодальный корпус - это «аннотированная коллекция взаимосвязанного контента (выровненных текстов, аудио- и видеозаписей актов коммуникации), используемая в качестве модели дискурса». [29] Корпус такого рода, кроме текстовой составляющей, включает видео- или аудиозаписи процесса коммуника­ции с привязкой к тексту. Такой корпус представляет языковой и коммуникативный материал, отражающий более чем одну модальность восприятия. Являясь «аннотированной коллекцией взаимосвязанного контента, мультимодальный корпус может быть использован в качестве модели дискурса» . [25] Тексты выравнивают с их расшифровками, что позволяет исследовать не только языковые единицы, но и речевые действия говорящего в различных ситуациях общения, его неречевое поведение (мимику, жесты, позы).

Интеграция текстовой информации, аудио- и видеозаписей коммуникативных актов в корпусе обеспечивает платформу для исследования целого спектра явлений в области лексики, просодии, использования невербальных средств, а также для изучения способов взаимодействия этих явлений в  естественной речи. Кроме того, мультимодальные корпусы обладают высоким потенциалом для практического применения в таких областях как лексикография, построение систем машинного перевода, создание интерфейсов, построение систем искусственного интеллекта и многих других.

Также как и в учебных корпусах, тексты мультимодальных корпусов имеют разметку, соответствующую целям корпуса. В отличие от корпусов письменной речи, мультимодальные корпусы в дополнение к выше представленным типам разметки имеют свою разметку, которая позволяет выделить интонацию, ударение (фонетические компоненты) и разметку, обозначающую мимику, жесты, телодвижения и т.д.

1.5 Обзор разработок мультимодальных корпусов и изучение их структуры

Первым учебным корпусом устной речи стал корпус LINDSEI. Он является разговорной копией ICLE. Первая версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время наполняется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения.

В России среди мультимодальных корпусов текстов самым популярным является подкорпус Национального Корпуса Русского Языка (НКРЯ). Мультимедийный русский корпус (МУРКО) – это подкорпус Национального корпуса русского языка, который содержит устные русские тексты, выровненные с соответствующими аудио- и видеофрагментами. МУРКО позволяет изучать устную речь, используя не только ее письменную фиксацию, но и ее реальное звучание и жестовое сопровождение. МУРКО рассчитан, прежде всего, на фонетистов, интонологов, специалистов по жестикуляции, но будет также полезен преподавателям русского языка, прежде всего, как иностранного.

Рисунок 2. Мультимедийный корпус НКРЯ

В настоящее время основу корпуса составляют видеоматериалы из отечественных фильмов и аудиозаписей публичной и непубличной устной речи. Технология подготовки материалов для корпуса предполагает расшифровку видео и аудиоматериалов, произведенную с высокой степенью подробности (т.е. включая не только собственно слова, но и междометия, возгласы, а также оговорки); фрагментирование видео и аудио материалов на относительно самостоятельные отрезки (длительностью от10 до 20секунд); фрагментирование текстовых расшифровок, или транскриптов; выравнивание мультимедийных и текстовых фрагментов между собой.

Клипотексты снабжены принятой в НКРЯ аннотацией – морфологической, семантической, социологической, акцентологической. Поскольку разметка клипотектов стандартная, то по ним возможен обычный для Национального корпуса поиск – по морфологическим, семантическим категориям, по социологическим параметрам и по их комбинации.

Наряду с  метатекстовой разметкой, которая относится к тексту как целому, каждый клипотекст или клип считается отдельным текстом и описывается как отдельный текст с точки зрения его автора, названия,даты создания, жанра, хронотопа и некоторых других. [23]

Однако, кроме того, добавляются и другие, дополнительные характеристики, которые и раскрывают в полной мере своеобразие мультимедийного корпуса по сравнению, например, со стандартным устным подкорпусом. Прежде всего, предлагается некоторая система параметров, характеризующая речевую составляющую клипотекста.

  • тип ситуации;

  • тип речевых действий (вопрос, просьба, извинение, совет и пр.);

  • полнота речевого действия (полное, незаконченное, прерванное);

  • манера говорения (нормальная речь, шепот, крик, диктовка);

  • наличие и типы повторов однократный,  многократный,  переспрос,  цитирование, передразнивание);

  • наличие и типы междометий и вокальных жестов (причмокивание, цоканье, присвистывание, подзывание и под.);

  • характеристика говорящих (количество, пол, язык, на котором говорят).

Уникальный материал и система разметки делают мультимедийный корпус мощным исследовательскими обучающим ресурсом. Его особенность в том, что методика использования существующих пособий ограничивается учебными задачами и предполагает в основном имитационные или имитационно-аналитические упражнения. Что касается корпуса, то в нем аудио- и видеоматериалы, выровненные с текстом, снабжены сложной лингвистической и металингвистической разметкой и снабжены инструментом поиска – и это расширяет возможности их использования. Корпус благодаря этому можно использовать не только в учебных курсах, но и в научно-исследовательских целях.

Еще один пример устного корпуса – проект «Один речевой день». Данный проект является первой попыткой серьезного изучения реального русского языка, на котором не написано ни одной книжки, но на котором мы все говорим. Корпус «Один речевой день» (ОРД) представляет собой один из блоков Звукового корпуса русского языка (ЗКРЯ), работа над которым ведется на факультете филологии и искусств СПбГУ. Принцип, положенный в основу организации этой части корпуса, условно можно назвать «принципом невода»: забрасываем широкую сеть в среду носителей языка, вытягиваем все, что в нее попало, и делаем это объектом многоуровневого анализа.  Принцип невода позволяет увидеть реальную, естественную, а не искусственно созданную в лабораторных условиях, жизнь, отраженную в речи. В целом корпус ОРД характеризуется в настоящее время такими количественными показателями: 320 часов звучания, полученные от 40 информантов (20 мужчин и 20 женщин). Звукозаписи переформатированы, убраны длительные (больше 5 минут) шумовые фрагменты, не содержащие речи. Звукозаписи разрезаны на коммуникативные эпизоды по принципу общих условий коммуникации и качества звукозаписи. В результате было получено 994 файла-эпизода общей продолжительностью 268 часов. Подготовлены методики многоуровневого аннотирования данных на лингвистическом и паралингвистическом уровнях. Осуществлена расшифровка 34 часов звукозаписей для 40 информантов и их многоуровневое аннотирование в профессиональной программе ELAN. В результате расшифровки получены тексты общим объемом в 244 075 словоупотреблений на уровне Frase (реплики говорящих), которые относятся к 125 эпизодам и соответствуют 33,87 часам непрерывной звучащей речи. Для 20 информантов-мужчин получено 106 109 словоупотреблений на уровне реплик, что соответствует 15,10 часам непрерывной речи, для 20 информантов-женщин – 137 966 словоупотреблений, что соответствует 18,77 часам.[21]

Реплики говорящих содержат синтагматическое и фразовое членение.

По материалам расшифрованных записей 40 информантов был получен частотный словник всех использованных в речи словоформ и выполнен первичный анализ этих данных. Начато сегментирование речевого материала на лексическом уровне. Осуществлена сегментация 14 884 слов для 5 информантов (S01, S19, S24, S35, S37) (147 минут звучания). Расшифрованный материал корпуса включает более чем 32 000 фраз. Подавляющее большинство высказываний в материале исследования оказались утвердительными (23 494), восклицательных и вопросительных высказываний встретилось около девяти тысяч 

Получена выборочная реальная транскрипция для 1000 словоизменительных морфем из речи 4 информантов. Морфемное аннотирование включает три уровня – орфографическую запись морфемы, её функциональный тип и реальную фонетическую транскрипцию.

По мере сбора и обработки материалы ЗКРЯ традиционно передаются в устный подкорпус Национального корпуса русского языка («Из материалов корпуса “Один речевой день”, подготовленного группой А. С. Асиновского»), что делает их доступными для самого широкого круга пользователей.

Корпус устных рассказов на русском языке был создан для того, чтобы показать, какие отдельные признаки жестов-иллюстраторов указывают на наличие границ сегментов дискурса. Стимулом написания рассказов послужил 6-ти минутный видеосюжет «Фильм о грушах» (“Pear film”). Об этом фильме студентами МГУ было написано 8 рассказов общей продолжительностью 20 минут. В целом, в корпусе было 595 элементарных дискурсивных единиц, которые обычно совпадают с простым предложением, и 327 иллюстративных жестов, которые понимаются как носители информации, выступая в качестве знаковых кинетических единиц выражения и передачи информации. На примере из корпуса исследователям удалось показать, как отдельные признаки жестов и положения рук могут добавлять дополнительную информацию касательно организации дискурса, состояния говорящего и передачи информации [8].