Корпусная лингвистика

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных.

При традиционной технологии сбора и обработки языковых данных обновление собранного материала представляет собой отнюдь не тривиальную задачу. Текущая обработка картотеки, поиск нужных единиц и пр. — все эти абсолютно необходимые операции отнимают значительное время. Кроме того, традиционная технология делает практически невозможным доступ к языковым данным на расстоянии.

Новые информационные технологии и технические средства (компьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных.

Этот технологический рывок создал, однако, другие – не менее серьезные – проблемы, существенно осложняющие использование языкового материала как для чисто научных, так и научно-практических целей. Дело в том, что чрезмерный объем изучаемых данных может и затруднить описание исследуемого феномена.

Встает задача разработки общих принципов построения лингвистических корпусов данных с использованием современных компьютерных технологий. Рассмотрим здесь две важнейших темы корпусной лингвистики, связанные с конструированием корпусов текстов:

– формулировка общих требований к корпусу данных с точки зрения пользователя;

– обсуждение опыта создания корпусов данных для различных исследовательских проектов.