На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Изучение английского языка достигло в этой области значительных успехов. Международный Учебный Корпус Английского языка ( The International Corpus of Learner English ) является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами 3-4 курсов продвинутого языкового уровня. Основная цель ICLE – исследование языка межнациональной коммуникации студентов, изучающих этот язык.
Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран, а именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках.
|
|
Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.
Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус ( The Cambridge Learner Corpus ). Как часть Кембриджского Международного Корпус, Кембриджский Учебный Корпус - это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возрасте, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета. CIC является коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL (http://www.cambridge.org/).
Среди отечественных разработок в данной области, одним из самых известных является Корпус Текстов Петербургских Школьников (КТПШ).
Объём корпуса составляет 38.122 словоупотребления. Сбор материала проходил в школах Санкт-Петербурга и осуществлялся в рамках педагогической практики студентами 4 курса филологического факультета РГПУ им. А. И. Герцена. В качестве информантов (авторов текстов) выступили 78 учащихся 7, 9-11 классов. Родной язык информантов – русский. Возраст учащихся – от 13 до 17 лет (средний возраст 15.4 лет; стандартное отклонение – 0,8 года). Жанры текстов – эссе и письмо другу (письменные тексты), монолог и диалог (устные тексты).
|
|
В таблице 4 представлены основные характеристики корпуса.
Характеристики КТПШ
Таблица 2
Признак | Тип корпуса |
Тип данных | Смешанный (устные и письменные) |
Язык текстов | Английский |
«Параллельность» | Одноязычный |
Специфичность | Содержит тексты обучающихся английскому зыку |
Доступность | Свободный доступ |
Назначение | Исследовательский |
Динамичность | Мониторный |
Разметка | Размеченный |
Характер разметки | Синтаксическая разметка ошибок (error tagging) |
Объем текстов | Полнотекстовый |
Хронология | Диахронический |
«Общность» | Общий |
Работа по созданию корпуса текстов обучающихся английскому языку проводилась в рамках программы «Методология проектирования гуманитарных технологий извлечения информации в условиях инновационной образовательной среды: коммуникативный аспект»
Руководитель программы: Беляева Лариса Николаевна, доктор филологических наук, профессор, заслуженный деятель науки РФ, почетный работник высшего профессионального образования РФ.
Работа над программой проводилась в рамках инновационного образовательного проекта РГПУ им. А.И. Герцена «Создание инновационной системы подготовки специалистов в области гуманитарных технологий в социальной сфере» (2008 г).
На данном сервисе представлены тексты петербургских учащихся, разделенные по типам и жанрам и синтаксически размеченные. В корпусе есть возможность свободного наполнения, т.е. любой пользователь может разместить в нем свой текст.
Разметка текста на ошибки
Разметка ошибок в КТПШ была выполнена полуавтоматическим способом с помощью программ Microsoft Word и Advanced Auto Renamer. Для того, чтобы разместить размеченный вариант текста нужно следовать предложенной в корпусе инструкции:
1) Загрузите на локальный компьютер предлагаемый список ошибок;
2) Скопируйте текст, который будете размечать в отдельный файл редактора Microsoft Word 2007. (! в другом файле у Вас должен остаться текст без разметки!) Убедитесь, что в настройках "Правописание" - "Набор правил" выбран пункт "Строго (все правила)";
3) Кликните на ошибочном варианте слова правой кнопкой мыши и в открывшемся меню выберите пункт "Грамматика";
4) Выделите слово с ошибкой цветом, соответствующим типу ошибки. Для этого воспользуйтесь инструментом "маркер";
5) Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках;
6) Пройдите по ссылке http://www.whitesmoke.com/online-writing-assistant, разместите в диалоговом окне сайта ваш неразмеченный текст;
7) Осуществите разметку текста, нажав на кнопку "check spelling";
8) Выделите в вашем документе слово с ошибкой цветом, соответствующим типу ошибки (см. список ошибок);
9) Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках;
10) По окончании работы воспользуйтесь программой Advanced Auto Renamer, присвоив ошибкам соотвествующие названия;
11) Сохраните документ в формате HTML присовив ему имя типа «textcode»_error tagged.htm (веб-страница с фильтром);
12) Отправьте полученный документ на электронный адрес администрации сайта. Ваш текст будет добавлен в корпус после рассмотрения его администратором сайта.
Практически все уже существующие на данном сервисе тексты размечены на ошибки. На рисунке 1 показан фрагмент размеченного текста.
Рисунок 1. Фрагмент текста КТПШ
Кроме разметки на ошибки, сервис предлагает пользователю разметить текст синтаксически. Для синтаксической разметки текстов корпуса предлагается использовать сервис Machinese Syntax © компании Connexor Oy. Для того, чтобы разместить размеченный вариант текста нужно также проследовать предложенной инструкции.
|
|
Создание конкорданса
Для создания конкордансов используется программа AntConc. В корпусе дано подробное описание этой программы, а также ссылка для скачивания и тексты для работы с программой.
Наполнение сервиса
Для того чтобы добавить текст в корпус, сначала нужно выбрать раздел Corpus Builder (конструктор корпуса).
· Перед тем как добавить свой текст, нужно заполнить следующие поля:
· тип текста (эссе, письмо другу, монолог, диалог),
· уникальный идентификатор (ID),
· возраст, пол, школа, класс,
· родной язык, второй язык,
· дополнительное образование (подготовительные курсы, репетитор, не занимается),
· уровень владения языком (новичок, начальный, ниже среднего, средний, выше среднего, продвинутый),
· тема
· и последнее, вставить свой текст в соответствующее поле.