double arrow

Из истории лингвистических корпусов

Практическое использование

Корпусная лингвистика – раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

1) представлением лингвистических данных в реальном контексте;

2) достаточно большой репрезентативностью данных (при большом объёме корпуса);

3) возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач. Среди них можно выделить следующие:

1) в лексикографии и лексикологии – для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте и т.д.,

2) в грамматике – для определения частоты употребления грамматических морфем в Различных текстах, выявления наиболее употребляемых типов словосочетаний и предложений, частоты употребления классов слов;

3) в лингвистике текста – для дифференциации типов текста, выявления связей между предложениями в абзацах, между абзацами и т.д.,

4) при автоматическом переводе текстов – для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов в параллельных текстах и т.д.,

5) в учебных целях – для выбора цитат, отдельных фрагментов произведений, примеров, при создании учебников и учебных пособий и т.д.;

6) к корпусам текстов также обращаются программисты, занимающиеся разработкой систем автоматической обработки текстов. Для них корпус служит своеобразным «полигоном», на котором проверяется эффективность работы компьютерных программ.

Первым большим компьютерным корпусом считается Брауновский корпус американского варианта английского языка, который был создан в 1962-63 гг. под руководством У. Фрэнсиса в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Л.Н. Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как, н-р, англ. polite ‘вежливый’ или англ. sunshine ‘солнечный свет’ встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк английского языка (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

В настоящее время представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков. Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 149 млн словоупотреблений.


Сейчас читают про: