Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
доклад по курсовой.doc
Скачиваний:
5
Добавлен:
23.11.2018
Размер:
86.02 Кб
Скачать

3. Создание конкорданса

Для создания конкордансов используется программа AntConc.

2.3. 2. Учебный многоязычный корпус MeLlange

В проекте по созданию корпуса MeLLANGE (Multilingual eLearning in Language Engineering) проекта приняли участие академические и отраслевые партнеры из Франции, Австрии, Чехии, Германии, Италии, Испании, Швейцарии и Великобритании. Корпус предназначен для создания инновационных учебных материалов для изучающих язык и профессиональных переводчиков.

Помимо разработки и внедрения интерактивных курсов в корпусную лингвистику для переводчиков и памяти перевода, консорциум проекта также разработал обучаемые и профессиональные переводы из четырех типов текстов, принадлежащим к разным сферам деятельности. Эта коллекция переводов называется MeLLANGE Учебный Корпус Переводов (LTC). LTC включает в себя работы стажеров, которые были размечены на ошибки в соответствии с составленной типологией ошибок. Корпус доступен через интерфейс запросов MeLLANGE.

В консорциуме также составлен список соответствующих корпусов для области переводоведения и обучения переводу.

Наконец, есть ряд ресурсов такие, как исходные тексты, корпусы в обработке, а также обработанные форматы, типология ошибок и т.д. которые также доступны в корпусе.

Сам корпус находится на сайте в разделе «интерфейс запросов MeLLANGE».

Выбрав по каждому из этих разделов пункты, корпус выдаст результаты.

В таблице показан пример с результатами запроса. В полученном запросе отображается оригинал текста, целевое предложение(я), полученный текст и альтернативные переводы студентов. В полученных переводах выделена ошибка и с помощью разметки указан ее тип. При наведении курсором на слово, в котором была допущена ошибка, всплывает правильный вариант слова.

По сравнению с Учебным Корпусом Петербургским Школьников, корпус MeLLANGE не дает пользователям такой возможности как свободного наполнения или синтаксической разметки. Корпус наполняют авторы. Но данный корпус содержит более мощную текстовую базу на разных языках.

Данные примеры учебных онлайн корпусов дают нам представление о том, из чего и как должен строиться корпус, что является обязательным при его создании, а что каждый автор считает менее важным, какие тексты выбирают для исследования и т.д. На основе этих примеров, мы можем говорить о структуре будущего учебного корпуса.

2.4. Общие рекомендации по выбору инструментальных средств для создания корпуса по русскому языку

Корпус должен содержать особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Основные виды разметки синтаксическая, грамматическая (семантическая, морфологическая), расстановка ударения, разметка на ошибки.

Синтаксическая разметка может осуществляться с помощью онлайн сервиса Machinese Syntax.

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений - программы морфологического анализа Mystem и Dialing.

Разметка на ошибки может происходить по классификации, используемой в КТПШ (приложение 2) вручную или с применением программы White Smoke. Размеченные тексты будут доступны пользователям для просмотра и поиска в режиме онлайн.

Для статистики текста можно использовать онлайн сервис AVEGO (http://advego.ru/text/). Данный сервис автоматически подсчитывает количество символов, слов, количество уникальных (а также значимых и стоп-слов, вода) слов, количество грамматических ошибок и т.д.

Конкорданс, списки ключевых слов и другие элементы корпуса можно создавать при помощи программного средства AntConc, учитывая все его преимущества перед другими программными средствами, которые были описаны выше.

Заключение

Полученные результаты исследования можно будет использовать в дальнейшем при создании нового учебного корпуса в качестве вспомогательного материала.

Кластер — (англ. cluster скопление) объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами.

6

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]