Учебный Мультимодальный Корпус Русского Языка

Корпус, разрабатываемый в Иркутском государственном лингвистическом университете, который был назван УМКРЯ (Учебный Мультимодальный Корпус Русского Языка), в настоящее время содержит 28 видеозаписей неподготовленных учебных диалогов носителей и «не носителей» русского, китайского и немецкого языков по определенным темам, размеченных в программе ELAN. В качестве подкорпуса создаваемого мультимодального корпуса разрабатывался параллельный одноязычный подкорпус, в котором между собой выравнивались тексты на одном из языков, произнесённые носителями и «не носителями» языка.

Выполнение данного проекта относится к сфере одного из восьми приоритетных направлений развития науки РФ «Информационно-телекоммуникационные системы» в руслеинформационных технологий и создания электронных баз данных и преследует несколько важных целей:

1) Лингводидактическая цель проекта заключается в разработке новых методик преподавания русского и китайского языков как иностранных на эмпирическом материале нового поколения, в том числе с учетом типичных ошибок при построении устных высказываний на иностранном языке студентами старших курсов. Данный корпус предназначен, в первую очередь, для выработки методических рекомендаций по обучению китайскому языку русских студентов и обучению русскому языку китайских студентов, поскольку позволяет найти пути устранения ошибок в ходе учебных занятий и самостоятельной работы студентов.

2) Лингвистическая цель заключается в анализе различных языковых и сопутствующих им паралингвистических явлений, зафиксированных в подкорпусах, созданных на основе видеозаписей диалогов носителей русского и китайского языков. С помощью корпусов текстов можно не только с большей точностью анализировать отдельные факты реализации языковых единиц, но и выявлять общие закономерности, присущие языковой системе. В частности, очевидным образом звучащий корпус является подспорьем для исследователей фонетики и орфоэпии.

В отличие от мультимедийных корпусов, которыеосновываются на уже существующем видеоматериале, цели УМКРЯ требовали создания собственных видеозаписей. Первоначальное проектирование мультимодального корпуса включает определение субъектов коммуникации, физических условий, при которых будет происходить запись, инструментального обеспечения процесса записи, а также выбор тем, которые будут обсуждаться коммуникантами в процессе разговора.

В соответствии с ранее определенной спецификой корпуса были выбраны участники-волонтеры из числа студентов 3-4 курса изучающих китайский язык. От всех студентов было получено письменное согласие на участие в проекте, проведение видеозаписи и дальнейшее использование видеозаписи в научных и учебных целях.

Выбор тем диалогов осуществлялся на основании исследования, выявившего список общих разговорных тем, которые являются актуальными в независимости от изучаемого языка и необходимыми для установления контакта и ведения бесед в стандартных ситуациях: «Ориентирование в городе»; «В аэропорту»; «Знакомство»; «Питание. Ресторан»; «Магазины. Покупки».

Для каждой темы был составлен опорный план диалога, содержащий несколько (обычно 4-5) пунктов, которые так или иначе должны были быть включены в текст диалога. Несмотря на заданные заранее темы, речь студентов можно назвать спонтанной, так как темы сообщались участникам лишь незадолго до момента записи, при этом уточнялось, что предложенный план является лишь опорным, и участникам самим предлагалось развить тему в любом направлении. Записи было решено проводить в помещениях университета.

В результате анализа существующих программных продуктов для создания корпуса была выбрана программа ELAN. На основании сопоставительного анализа функциональных возможностей нескольких программ, мы пришли к выводу, что программа ELAN обладает рядом преимуществ. Во-первых, она является бесплатной и свободно распространяемой. Во-вторых, поддерживает русский язык для интерфейса. В-третьих, обладает продвинутыми поисковыми возможностями (например, позволяет производить структурированный поиск по нескольким файлам).

Параллельный подкорпус

Главными задачами при построении параллельного мультимедийного подкорпуса были:

· Выбор оптимального способа хранения корпусных данных

· Разработка метода выравнивания корпуса

· Создание корпус-менеджера

Для хранения данных мультимедийного параллельного корпуса был выбран формат баз данных Microsoft Access 2003. Данный формат позволяет наглядно представить структуру корпуса, упростить процесс его заполнения и выравнивания, является широко известным, что позволит любому уверенному пользователю ПК работать с корпусом. Каждая таблица корпуса имеет жесткую структуру и хранит в себе данные одной языковой ситуации.

Поскольку исходные тексты характеризуются высокой степенью спонтанности, произвести выравнивание по предложениям не представляется возможным. По этой причине за единицу выравнивания было решено принять тематический блок – часть текста, относящуюся к одной теме. Граница тематического блока может проходить как между репликами коммуникантов, так и в рамках реплики одного из коммуникантов.

Каждый тематический блок записывается в отдельную ячейку таблицы. Выравнивание между текстами осуществляется на основе текста носителей языка: соответствующие друг другу тематические блоки записываются в рядом стоящие ячейки. Если же тематическому блоку из одного текста невозможно поставить в соответствие ни один блок из другого текста, то рядом стоящая ячейка остаётся пустой.

Наряду с самим корпусом на платформе Delphi XE был создан корпус-менеджер, позволяющий удобно просматривать мультимедийный параллельный корпус. Данный корпус-менеджер в наглядном виде представляет текстовую часть корпуса со всей разметкой и выравниванием по тематическим блокам, позволяет воспроизвести отрывок видео, относящийся к тому или иному блоку корпуса, а также позволяет просматривать метаданные.

ГЛАВА II РУССКО-НЕМЕЦКИЙ ПОДКОРПУС УМКО


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: