Разметка текстов и аннотирование данных

Все аудиозаписи были затранскрибированы. При записи реплик использовалась схема, предложенная Шерстиновой Т.Ю. для аннотирования звукового корпуса русского языка «Один речевой день». Выбор именно этой схемы обусловлен близостью предмета исследования – ОРД также содержит записи спонтанной, неподготовленной разговорной речи. Однако схема разметки ОРД не полностью отвечает нашим задачам, в связи с чем в нее был внесен ряд изменений:

1) слова записываются в орфографии; обязательно используется буквы ö, ä, ü;

2) если некая словоформа употреблена грамматически неправильно (не тот падеж, число и т. п.), то в орфографии записывается реально звучащая словоформа, в конце которой без пробела ставится символ звездочка (*) (напр., в путём*);

3) при неуверенности расшифровщика в идентичности словоформы после неё без пробела ставится знак вопроса в круглых скобках (напр., на станцию Торфянка(?));

4) неполные (оборванные) слова помечаются многоточием без пробела;

5) начала реплик не выделяются заглавной буквой;

6) заглавные буквы ставятся в начале имен собственных;

7) названия не выделяются в кавычки. При необходимости пометить название, после одиночного слова ставится знак $, названия из двух или более слов объединяются символом «подчеркивание», и в конце также ставится $ (напр., я посмотрела фильм Монгол$, а ты смотрела Унесённые_ветром$?);

8) точки и запятые в расшифровках не ставятся;

9) членение реплик на фразы и синтагмы осуществляется с учетом интонационно-синтаксических характеристик отрезков звуковой цепи;

10) знак / - одинарный слеш – знак членения на синтагмы;

11) знак // - двойной слеш – знак конца фразы;

12) знаки / и // отбиваются обязательным пробелом с двух сторон, если это не конечный символ реплики (в этом случае обязательным является только пробел перед слешем);

13) символы? (вопросительное предложение) и! (восклицательное предложение) употребляются в обычном значении. Но перед ними обязательно ставится пробел;

14) если фраза не закончена (оборвана), в конце ставится символ Ö (многоточие) после пробела;

15) каждая реплика, находящаяся в отдельном боксе, должна быть «закрыта», т. е. иметь на конце один из пяти следующих символов: /, //,?,!, Ö;

16) слово, словосочетание или целая реплика, которые трудно расшифровать, помечаются символом *Н (звездочка + заглавная русская буква Н);

17) если вся реплика в боксе является неразборчивой, тем не менее, она должна иметь закрывающую интонационную помету;

18) внутри каждой реплики обязательно отмечаются паузы;

19) символ () (открывающая и закрывающая круглые скобки без пробела) ставятся на месте небольшой заминки ñ краткой паузы хезитации;

20) символ (Ö) (открывающая и закрывающая круглые скобки, многоточие между ними) обозначает продолжительную паузу хезитации;

21) если пауза хезитации заполнена некоторыми звуками, соответствующие буквенные символы ставятся внутри круглых скобок: напр., (э) ñ краткая пауза хезитации, заполненная э-образным звуком, (э-э) ñ длинная пауза хезитации, заполненная э-образным звуком, подобным образом помечаются (м), (м-м), (а), (а-а) и т. п.;

22) внутри реплик обязательно отмечаются и нехезитационные паузы, обозначаемые символом *П, продолжительностью более 50 мс. Чаще всего они имеют место после символов, завершающих интонационную группу (/, //,?,!). Например, я буду завтра в три // *П а ты?;

23) все символы, обозначающие паузы, отбиваются пробелом с двух сторон;

24) расшифровка реплики не может начинаться или заканчиваться символом *П ñ;

25) растягивание слова или отдельного слога в слове помечается символом (:) в конце слова без пробела. Например, да ты что(:)!.[26]

Запись одного из текстов выглядит следующим образом:

Рисунок 5. Фрагмент размеченного текста

Первичное аннотирование данных осуществлялось в программе ELAN.

ELAN - программа для включения текстовых аннотаций в видео- и аудиофайлы. Данное приложение является бесплатным; оно позволяет создать, визуализировать и редактировать заметки, прикрепленные к видео- и аудиофайлам. ELAN обладает удобным интерфейсом на русском и других языках, показывает время добавленного текста, поддерживает отображение аудио- и видео-сигналов в сопровождении встроенных аннотаций. Программа позволяет добавлять текстовые данные в определенном месте и просмотреть результат на графике. Редактировать текст можно в любое время, при этом текущая аннотация может быть объединена с предыдущей или следующей.

Для того чтобы проаннотировать аудио- или видеозапись, нужно следовать данной инструкции:

1) Создаем новый файл. Для этого требуется открыть программу, выбрать в меню раздел File, затем вкладку New. Открывается окно, где нужно выбрать аудио- и/или видеофайл, который должен быть обработан. Нужно найти нужный файл (или нужные файлы) и выбрать его с помощью стрелок [>>] в середине окна, потом нажать ОК. Если Вы хотите работать с аудио- и видеофайлом вместе, нужно сначала выбрать аудиофайл (.wav), потом выбрать видеофайл (.mpg). Открывается главное окно ELANa, где видно либо только звуковые волны (если выбрали только аудиофайл), либо звуковые волны и видео (если выбрали аудио- и видеофайл).

2) Под звуковыми волнами есть место для аннотаций. Чтобы создать уровни для аннотации, нужно сначала определить их структуру – в ELANе это называется их «тип». Есть 2 основных типа аннотаций: независимые(которые связаны прямо со звуковым файлом во времени) и зависимые(которые связаны не со звуком, а с другой аннотацией); например: орфографическая транскрипция = независимый тип аннотаций, потому что она связана прямо со звуком, перевод = зависимый тип аннотаций, потому что он связан с транскрибированным предложением

В ELANе надо сначала определить типы: Type - Add new linguistic type.

3) Нужно назвать типы, и потом дать им «стереотип». Главные стереотипы = None(независимый тип, аннотация связана прямо со звуком, например для транскрипции), и Symbolic Association(зависимый тип, аннотация связана с другой аннотацией, например для перевода). После того, как назвали и выбрали стереотип, нужно нажать Add, чтобы этот тип добавился.

4) Когда типы определены, можно определить уровни аннотации = tiers. Tiers - Add new tier. Каждый уровень получает определенный тип, например, аннотация с эвенской орфографией = тип transcription, и аннотация с русским переводом = perevod.

5) Теперь нужно таким же образом дать название уровням; при этом необходимо определить вышестоящий уровень (parent tier) и тип. Нужно сохранить файл: File - Save as...

6) Вводить аннотации. Чтобы начать вводить аннотации, нужно сначала активировать тот уровень аннотации, в который Вы хотите вводить аннотации; активированный уровень = красный. Потом нужно выделить тот кусок речи, который Вы хотите аннотировать – одно предложение, например. В этом помогает звуковая волна, где можно видеть снижающуюся интонацию, или речевые паузы. После этого в активированном уровне при двойном клике мышкой по выделенному фрагменту открывается окно для аннотации, куда можно вписать транскрипции (перевод, комментарий, и т.д.).

7) Сохранить написанное: Strg+enter (ввод). Чтобы воспроизвести звук только выделенного отрывка, можно нажать на кнопку >S. Очень важно: аннотации должны быть неотрывными, поэтому нужно маркировать следующий кусочек, начиная чуть-чуть перед концом первого. Скорость речи можно снижать через Rate – если передвинуть стрелку налево, то речь замедляется. Чтобы сохранить файлы во время работы: Strg+S (или File - Save).

В приложении 3 представлены фрагменты готовых проаннотированных видео.