Принципы отбора и обработки материала в языковых корпусах

Создание корпусов включает в себя отбор текстов, разработку средств кодирования и средств поиска внутри базы данных. Подбор текстов осуществляется на основе четко сформулированных критериев (жанровая принадлежность текста, время его создания и др.).

Поскольку собрать все тексты языка практически невозможно (исключение составляют лишь мертвые языки), при отборе текстов необходимо следить за тем, чтобы были равномерно представлены все стили языка, чтобы в корпус были включены примеры употребления низкочастотной лексики. Считается, что для национального корпуса, который достоверно описывает некоторый язык, размер базы данных должен быть не менее 100 миллионов словоупотреблений. О таком корпусе принято говорить как о достаточно репрезентативном. Репрезентативность корпуса – одно из важнейших условий его использования. Поскольку от того, насколько корпус является репрезентативным, зависит достоверность результатом исследований, которые проводятся на материале этого корпуса.

В корпус могут включаться тексты самых разных жанров: произведения художественной литературы, публикации СМИ, деловые документы, записи диалогов, телевизионных ток-шоу, переписка по электронной почте и т.д. Такой подбор обеспечивает репрезентативность, т.е. показывает, как на самом деле функционирует язык в обществе. Иногда оказывается, что языковое употребление значительно расходится с нормой, представленной в грамматиках и словарях. Необходимо также отметить, что включение в корпус текстов, отражающих реальный процесс использования языка в определенных коммуникативных контекстах, контрастирует с подходом генеративной лингвистики, где порождение высказываний – это результат размышлений лингвиста об использовании языка, т.е. высказывания порождаются вне контекста на основе строгих правил.

Включенные в корпус тексты получают морфологическую и синтаксическую разметку (или аннотацию), которая необходима для того, чтобы пользователь мог осуществлять поиск необходимых фрагментов по заданным параметрам. Разметка – это приписывание грамматической информации о входящих в тексты словоформах. Наличие такой информации значительно обогащает корпус и облегчает процедуру поиска. Другие преимущества разметки заключаются в ее эксплицитности (т.е. информация о грамматических свойствах словоформ дается в явном виде), а также многофункциональности (аннотированный корпус может быть использован в различных исследовательских целях).

Разметка может осуществляться как вручную, так и в автоматическом режиме. Для того чтобы аннотирование происходило автоматически, специалисты по корпусной лингвистике используют специальные программы: лемматизаторы (т.е. программы, функция которых – приведение словоформы к начальной форме), программы, расставляющие указатели частей речи (part-of-speech taggers) и др.

Кроме того, в больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.