Corpus Albaruthenicum як частка міжнароднага праекта «BalticGrid-II»

http://www.russian.slavica.org/printout15324.html

У 2005 г. пачаўся міжнародны праект «BalticGrid» (www.baltiсgrid.org), мэтай якога была распрацоўка грыд-сеткі для краін Балтыі і ўсталяванне ўстойлівай е-інфраструктуры з мэтай выкарыстання ў розных навуковых даследаваннях Еўропы і далучэння яе да агульнаеўрапейскай е-інфраструктуры. З 2008 г. у межах 7-й Рамкавай праграмы Еўрапейскага саюзу ажыццяўлялася другая фаза гэтага праекта. Яго мэтай было пашырэнне і развіццё існай інфраструктуры і пераўтварэнне яе ў штодзённы інструмент працы для вучоных рэгіёна і па-за яго межамі.

Адным з кірункаў у праекце «ВаlticGrid-II» была распрацоўка лінгвістычных рэсурсаў для краін Балтыі і Беларусі. У прыватнасці, Літва (Вільнюскі універсітэт) і Беларусь (Беларускі нацыянальны тэхнічны ўніверсітэт пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы, адпаведна літоўскай і беларускай.

Корпус беларускамоўных навуковых тэкстаў (Corpus Albaruthenicum) — першая спроба стварэння публічнага вузкаспецыяльнага корпуса, які мае на мэце распрацоўку даведачнай базы звестак для карыстання лінгвістамі, выкладчыкамі, студэнтамі і інш. Мэта праекта — прадастаўленне шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.

Корпус адыгрывае важную ролю ў апрацоўцы натуральнай мовы і з’яўляецца значным рэсурсам для розных тыпаў адукацыйных праграм, праграм машыннага перакладу для правядзення лінгвістычных даследаванняў у галіне лексікаграфіі, а таксама для распрацоўкі тэрміналагічнай базы беларускай мовы. Параметры, адлюстраваныя ў корпусе, дадуць магчымасць выкарыстоўваць яго ў якасці анлайн-даведніка па лексіцы і граматыцы.

У практычным плане анатаваны пры дапамозе лексіка-граматычнай базы корпус дазволіць не толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны, марфалагічны, стылістычны, семантычны і г.д.). У сферы лексікаграфіі пры стварэнні традыцыйных слоўнікаў рознага тыпу будзе забяспечана большая ступень аб’ектыўнасці ў падачы інфармацыі, што з’яўляецца праблемным для беларускай лексікаграфіі.

Корпус размечаны адпаведна сістэме кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org). Схема разметкі корпуса ўтрымлівае наступныя характарыстыкі:

• агульная інфармацыя пра тэкст;

• базавая структурная анатацыя тэксту: главы, загалоўкі, змест тэксту да ўзроўню асобных слоў;

• граматычная інфармацыя.

Агульная інфармацыя пра тэкст складаецца з апісання структуры дакумента (апісанне файла, заяўленне загалоўка, выдання і аб’ёму, апісанне крыніцы і інш.), параметраў (паходжанне тэксту, мова, раскладка знакаў і інш.). Такім чынам, агульная інфармацыя змяшчае ўсе параметры тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных функцый: фарміруе архітэктуру корпуса; дапамагае кантраляваць працэс яго інфармацыйнага напаўнення, ацэньваць прадстаўнічасць і збалансаванасць; забяспечвае магчымасць пошуку і адбору карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.

Базавая структурная анатацыя ўключае выдзяленне структурных элементаў тэксту і падзяляецца на тры ўзроўні: узровень тэксту, узровень абзаца, узровень падабзаца. Першы ахоплівае пазначэнне змесціва тэксту, глаў, раздзелаў і абзацаў. У другім пазначаюцца загалоўкі, трэці ўключае пазначэнне сказаў, слоў, пунктуацыйных знакаў.

Для граматычнай разметкі корпуса выкарыстоўваецца лексіка-граматычная база беларускай мовы, створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі. Яна налічвае прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў.

На падставе лексіка-граматычнай базы вядзецца распрацоўка і ўдасканаленне аўтаматычнага аналізатара (парсэра), які дазволіць аўтаматызаваць, наколькі гэта магчыма, марфалагічны аналіз у тэкстах корпуса.

Марфалагічная разметка складаецца з некалькіх частак: пачатковай формы словаформы (пазначаецца як lemma) і граматычных прыкмет лексемы (часціна мовы, адушаўлёнасць і род для назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лік для назоўнікаў) ігнаруюцца.

На сённяшні дзень аб’ём корпуса складае каля 400 тыс. слоў са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства, літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны і г.д. Для яго быў распрацаваны анлайнавы сэрвіс, які прадастаўляе выбаркі інфармацыі з Корпуса. У тым ліку дазваляе шукаць словы ў іх зыходнай форме (у друкаванай карыстальнікам), словы з іх словаформамі і камбінацыі слоў (уключна з іх словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы адлегласць паміж словамі. Пошук дазваляецца ў межах сказа, абзаца і ўсяго тэксту. Сэрвіс даступны па адрасе http://grid.bntu.by/corpus/.

У дадзены момант вядзецца праца па ўдасканаленні сэрвіса, будуць уключаны новыя магчымасці пошуку:

• інфармацыі пра тэкст, у якім слова было знойдзена (аўтар, назва і г.д.);

• слоў паводле граматычных характарыстык;

• слоў з улікам аманіміі;

• па асобных тэкстах (з улікам іх жанравай прыналежнасці), аўтарах і г.д.;

• з улікам рэгістру (што важна пры аналізе ўласных імёнаў і абрэвіятур);

• з дапамогай лагічных аператараў OR, XOR, NOT;

• па рэгулярным выразе;

• у загалоўку () альбо ў звычайным абзацы ();

• у першым/апошнім сказе абзаца;

• у пачатку сказа;

• слоў у вызначаным парадку альбо ў адвольным.

У перспектыве анатаваныя корпусы будуць мець шырокае прымяненне ў сферы лексікаграфіі: выкарыстанне анатаваных корпусаў пры стварэнні традыцыйных слоўнікаў рознага тыпу (тлумачальных, граматычных, частотных і інш.) дасць магчымасць дасягнуць большай ступені аб’ектыўнасці ў падачы інфармацыі. Асабліва востра адсутнасць корпуса адчуваецца ў сувязі з патрэбай стварэння новага фундаментальнага тлумачальнага слоўніка беларускай мовы, працу над якім Інстытут мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі пачаў з 2011 г. у рамках дзяржаўнай падпраграмы навуковых даследаванняў «Беларуская мова і літаратура ў кантэксце цывілізацыйнага развіцця Рэспублікі Беларусь: гісторыя, сучасны стан, тэндэнцыі». Базай для слоўніка паслужаць Корпус і Электронная лексіка-граматычная база беларускай мовы. Параметры новага слоўніка вымагаюць выпрацоўкі новых навукова абгрунтаваных прынцыпаў (пры фарміраванні рэестра, адборы ілюстрацый, распрацоўцы сістэмы памет і дэфініцый і г.д.).

Такім чынам, на сённяшні дзень у Беларусі існуе некалькі корпусных праектаў: Вялікі корпус беларускай мовы, створаны выкладчыкамі Мінскага дзяржаўнага лінгвістычнага ўніверсітэта сумесна з навуковымі супрацоўнікамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі, і корпус навуковых тэкстаў беларускай мовы Corpus Albaruthenicum, падрыхтаваны спецыялістамі Беларускага нацыянальнага тэхнічнага ўніверсітэта разам з навукоўцамі гэтай жа акадэмічнай установы. У бліжэйшай перспектыве дадзеныя корпусы павінны быць аб’яднаны ў адзін, што стане асновай для будучага Нацыянальнага корпуса беларускай мовы. Яго стварэнне з’яўляецца ўнікальным інавацыйным праектам беларускага мовазнаўства, ажыццяўленне якога дазволіць выйсці беларускім вучоным на новы ўзровень лінгвістычных даследаванняў.

СЛОЎНІК

Паралельны корпус – гэта корпус, у якім тексту на одной мове супастаўляецца пераклад гэтага тэксту на іншай мове.