Все аудиозаписи были затранскрибированы. При записи реплик использовалась схема, предложенная Шерстиновой Т.Ю. для аннотирования звукового корпуса русского языка «Один речевой день». Выбор именно этой схемы обусловлен близостью предмета исследования – ОРД также содержит записи спонтанной, неподготовленной разговорной речи. Однако схема разметки ОРД не полностью отвечает нашим задачам, в связи с чем в нее был внесен ряд изменений:
1) слова записываются в орфографии; обязательно используется буквы ö, ä, ü;
2) если некая словоформа употреблена грамматически неправильно (не тот падеж, число и т. п.), то в орфографии записывается реально звучащая словоформа, в конце которой без пробела ставится символ звездочка (*) (напр., в путём*);
3) при неуверенности расшифровщика в идентичности словоформы после неё без пробела ставится знак вопроса в круглых скобках (напр., на станцию Торфянка(?));
4) неполные (оборванные) слова помечаются многоточием без пробела;
5) начала реплик не выделяются заглавной буквой;
6) заглавные буквы ставятся в начале имен собственных;
7) названия не выделяются в кавычки. При необходимости пометить название, после одиночного слова ставится знак $, названия из двух или более слов объединяются символом «подчеркивание», и в конце также ставится $ (напр., я посмотрела фильм Монгол$, а ты смотрела Унесённые_ветром$?);
8) точки и запятые в расшифровках не ставятся;
9) членение реплик на фразы и синтагмы осуществляется с учетом интонационно-синтаксических характеристик отрезков звуковой цепи;
10) знак / - одинарный слеш – знак членения на синтагмы;
11) знак // - двойной слеш – знак конца фразы;
12) знаки / и // отбиваются обязательным пробелом с двух сторон, если это не конечный символ реплики (в этом случае обязательным является только пробел перед слешем);
13) символы? (вопросительное предложение) и! (восклицательное предложение) употребляются в обычном значении. Но перед ними обязательно ставится пробел;
14) если фраза не закончена (оборвана), в конце ставится символ Ö (многоточие) после пробела;
15) каждая реплика, находящаяся в отдельном боксе, должна быть «закрыта», т. е. иметь на конце один из пяти следующих символов: /, //,?,!, Ö;
16) слово, словосочетание или целая реплика, которые трудно расшифровать, помечаются символом *Н (звездочка + заглавная русская буква Н);
17) если вся реплика в боксе является неразборчивой, тем не менее, она должна иметь закрывающую интонационную помету;
18) внутри каждой реплики обязательно отмечаются паузы;
19) символ () (открывающая и закрывающая круглые скобки без пробела) ставятся на месте небольшой заминки ñ краткой паузы хезитации;
20) символ (Ö) (открывающая и закрывающая круглые скобки, многоточие между ними) обозначает продолжительную паузу хезитации;
21) если пауза хезитации заполнена некоторыми звуками, соответствующие буквенные символы ставятся внутри круглых скобок: напр., (э) ñ краткая пауза хезитации, заполненная э-образным звуком, (э-э) ñ длинная пауза хезитации, заполненная э-образным звуком, подобным образом помечаются (м), (м-м), (а), (а-а) и т. п.;
22) внутри реплик обязательно отмечаются и нехезитационные паузы, обозначаемые символом *П, продолжительностью более 50 мс. Чаще всего они имеют место после символов, завершающих интонационную группу (/, //,?,!). Например, я буду завтра в три // *П а ты?;
23) все символы, обозначающие паузы, отбиваются пробелом с двух сторон;
24) расшифровка реплики не может начинаться или заканчиваться символом *П ñ;
25) растягивание слова или отдельного слога в слове помечается символом (:) в конце слова без пробела. Например, да ты что(:)!.[26]
Запись одного из текстов выглядит следующим образом:
Рисунок 5. Фрагмент размеченного текста
Первичное аннотирование данных осуществлялось в программе ELAN.
ELAN - программа для включения текстовых аннотаций в видео- и аудиофайлы. Данное приложение является бесплатным; оно позволяет создать, визуализировать и редактировать заметки, прикрепленные к видео- и аудиофайлам. ELAN обладает удобным интерфейсом на русском и других языках, показывает время добавленного текста, поддерживает отображение аудио- и видео-сигналов в сопровождении встроенных аннотаций. Программа позволяет добавлять текстовые данные в определенном месте и просмотреть результат на графике. Редактировать текст можно в любое время, при этом текущая аннотация может быть объединена с предыдущей или следующей.
Для того чтобы проаннотировать аудио- или видеозапись, нужно следовать данной инструкции:
1) Создаем новый файл. Для этого требуется открыть программу, выбрать в меню раздел File, затем вкладку New. Открывается окно, где нужно выбрать аудио- и/или видеофайл, который должен быть обработан. Нужно найти нужный файл (или нужные файлы) и выбрать его с помощью стрелок [>>] в середине окна, потом нажать ОК. Если Вы хотите работать с аудио- и видеофайлом вместе, нужно сначала выбрать аудиофайл (.wav), потом выбрать видеофайл (.mpg). Открывается главное окно ELANa, где видно либо только звуковые волны (если выбрали только аудиофайл), либо звуковые волны и видео (если выбрали аудио- и видеофайл).
2) Под звуковыми волнами есть место для аннотаций. Чтобы создать уровни для аннотации, нужно сначала определить их структуру – в ELANе это называется их «тип». Есть 2 основных типа аннотаций: независимые(которые связаны прямо со звуковым файлом во времени) и зависимые(которые связаны не со звуком, а с другой аннотацией); например: орфографическая транскрипция = независимый тип аннотаций, потому что она связана прямо со звуком, перевод = зависимый тип аннотаций, потому что он связан с транскрибированным предложением
В ELANе надо сначала определить типы: Type - Add new linguistic type.
3) Нужно назвать типы, и потом дать им «стереотип». Главные стереотипы = None(независимый тип, аннотация связана прямо со звуком, например для транскрипции), и Symbolic Association(зависимый тип, аннотация связана с другой аннотацией, например для перевода). После того, как назвали и выбрали стереотип, нужно нажать Add, чтобы этот тип добавился.
4) Когда типы определены, можно определить уровни аннотации = tiers. Tiers - Add new tier. Каждый уровень получает определенный тип, например, аннотация с эвенской орфографией = тип transcription, и аннотация с русским переводом = perevod.
5) Теперь нужно таким же образом дать название уровням; при этом необходимо определить вышестоящий уровень (parent tier) и тип. Нужно сохранить файл: File - Save as...
6) Вводить аннотации. Чтобы начать вводить аннотации, нужно сначала активировать тот уровень аннотации, в который Вы хотите вводить аннотации; активированный уровень = красный. Потом нужно выделить тот кусок речи, который Вы хотите аннотировать – одно предложение, например. В этом помогает звуковая волна, где можно видеть снижающуюся интонацию, или речевые паузы. После этого в активированном уровне при двойном клике мышкой по выделенному фрагменту открывается окно для аннотации, куда можно вписать транскрипции (перевод, комментарий, и т.д.).
7) Сохранить написанное: Strg+enter (ввод). Чтобы воспроизвести звук только выделенного отрывка, можно нажать на кнопку >S. Очень важно: аннотации должны быть неотрывными, поэтому нужно маркировать следующий кусочек, начиная чуть-чуть перед концом первого. Скорость речи можно снижать через Rate – если передвинуть стрелку налево, то речь замедляется. Чтобы сохранить файлы во время работы: Strg+S (или File - Save).
В приложении 3 представлены фрагменты готовых проаннотированных видео.