Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий [Захаров В.П., Богданова С.Ю. «Корпусная лингвистика», Иркутск, 2011, с.7]. Термин «корпусная лингвистика» был введён в употребление в 60–х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники. В основе корпусной лингвистики лежит то, что язык - это полностью социальное явление, и его можно описать данными, основанными на опыте, т.е. в речевом акте. Это влечет за собой то, что мы не знаем, а иногда и стараемся не знать, как говорящий или слушающий понимает слова, предложения или тексты, которые он говорит или слышит. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Внутренние, немые тексты также являются текстами, но их нельзя пронаблюдать и, следовательно, они не являются социальным явлением. Большинство текстов встречаются в виде речевых актов, т.е. как взаимодействие между членами языкового общества. Отсюда следует, что корпусная лингвистика показывает полную картину, позволяя узнать соглашения языкового общества. Для корпусной лингвистики, язык – это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах.
|
|
В центре внимания корпусной лингвистики лежит языковая личность, т.е. её речевая деятельность, массовая коммуникация, проблема её описания.
Под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач [7]. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты [Рыков. В.В. «Корпусная лингвистика. Курс лекций» 2002а, c.4].
Существует большое количество разных типов корпусов, что определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов [8].
Классификация корпусов
Таблица 1
Признак | Типы корпусов |
Тип данных | Письменные Речевые Смешанные |
Язык текстов | Русский Английский и т.д. |
«Параллельность» | Одноязычные Двуязычные Многоязычные |
«Литературность», специфичность | Литературные Диалектные Разговорные Терминологические Смешанные |
Жанр | Литературные Фольклорные Драматургические Публицистические |
Доступность | Свободно доступные Коммерческие Закрытые |
Назначение | Исследовательские Иллюстративные |
Динамичность | Динамические (мониторные) Статические |
Разметка | Размеченные Неразмеченные |
Характер разметки | Морфологические Синтаксические Семантические Просодические и т.д. |
Объем текстов | Полнотекстовые «Фрагментнотекстовые» |
Хронологический аспект | Синхронические Диахронические |
«Общность» | Общие Одного писателя |
Структура | Центральные и архивные Ядерные и периферийные |
|
|