Корпусная лінгвістыка

1. Асноўныя паняцці корпуснай лінгвістыкі.

2. Гісторыя стварэння лінгвістычных корпусаў.

3. Тыпалогія корпусаў.

1. Корпусная лінгвістыка – раздзел камп’ютарнай лінгвістыкі, які займаецца распрацоўкай агульных прынцыпаў будавання і выкарыстання лінгвістычных корпусаў (корпусаў тэкстаў) з выкарыстаннем камп’ютарных тэхналогій. Пад назвай лінгвістычны, ці моўны, корпус тэкстаў разумеецца вялікі, прадстаўлены ў электронным выглядзе, уніфікаваны, структураваны, размечаны, філалагічна кампетэнтны масіў моўных дадзеных, які выкарыстоўваецца для рашэння канкрэтных лінгвістычных задач. У паняцце «корпус тэкстаў» таксама ўваходзіць сістэма кіравання тэкставымі і лінгвістычнымі дадзенымі, якую называюць корпусным менеджэрам (ці корпус-менеджэрам) (англ. corpus manager). Гэта спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.

Корпусная лінгвістыка дала магчымасць удакладніць вынікі праведзеных раней даследаванняў мовы і правесці новы, больш шырокі і сістэмны па аб’ёме моўнага матэрыялу лінгвістычны аналіз. У цэнтры ўвагі корпуснай лінгвістыкі – моўная асоба з маўленчай дзейнасцю, масавай камунікацыяй, праблемамі яе апісання. Галоўныя мэты – лінгвістычнае апісанне моўнай сістэмы, а таксама адлюстраванне моўнага матэрыялу ў выглядзе корпуса тэкстаў, які ў сваю чаргу можа выкарыстоўвацца іншымі лінгвістычнымі дысцыплінамі.

Пошук у корпусе дадзеных дазваляе па любым слове пабудаваць канкарданс – спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу. Корпусы могуць выкарыстоўвацца для атрымання разнастайных даведак і статыстычных дадзеных аб моўных і маўленчых адзінках. У прыватнасці, на аснове корпусаў можна атрымаць дадзеныя аб частаце словаформ, лексем, граматычных катэгорый, прасачыць змены частот і кантэкстаў у розныя перыяды часу, атрымаць дадзеныя сумеснага ўжывання лексічных адзінак і да т.п. Значны масіў моўных дадзеных за пэўны перыяд дазваляе вывучыць дынаміку працэсаў змянення лексічнага складу мовы, праводзіць аналіз лексіка-граматычных характарыстык у розных жанрах і ў розных аўтараў, і г.д. Корпусы прызваны таксама служыць крыніцай і інструментам шматаспектных лексікаграфічных работ па падрыхтоўцы разнастайных гістарычных і сучасных слоўнікаў. Дадзеныя корпусаў могуць быць выкарыстаны для стварэння і ўдакладнення граматык і з мэтай навучання мове.

Задача стваральнікаў корпуса – сабраць як мага большую колькасць тэкстаў, але галоўнае не толькі і не столькі ў колькасці матэрыялу, колькі ў яго прапарцыянальнасці. Можна сказаць, што корпус – гэта паменшаная мадэль мовы ці падмовы. Адным з важнейшых паняццяў корпуснай лінгвістыкі з’яўляецца рэпрэзентатыўнасцьь. Пад рэпрэзентатыўнасцю разумеюць неабходна-дастатковае і прапарцыянальнае прадстаўленне ў корпусе тэкстаў розных перыядаў, жанраў, стыляў, аўтараў і да т.п.

Тэрмін «корпус» звычайна абазначае збор тэкстаў канечнага фіксаванага памеру. З цягам часу аб’ём і склад корпуса можа змяняцца, аднак гэтыя змены не павінны змяняць яго рэпрэзентатыўнасць. Аб’ём першых корпусаў складаў 1 млн словаўжыванняў. Зараз лічыцца, што аб’ём агульнамоўнага корпуса павінен быць не менш за 100 млн словаўжыванняў.

Для рашэння розных лінгвістычных задач аднаго масіва тэкстаў мала. Неабходна, каб тэксты змяшчалі рознага роду дадатковую лінгвістычную і экстралінгвістычную інфармацыю. Так у корпуснай лінгвістыцы ўзнікла ідэя размечанага корпуса. Разметка (tagging, annotation) заключаецца ў прыпісванні тэкстам і іх кампанентам спецыяльных метак (tag, tags): вонкавых, экстралінгвістычных (звесткі аб аўтары і звесткі аб тэксце: аўтар, назва, год і месца выдання, жанр, тэматыка; звесткі аб аўтары могуць уключаць не толькі яго імя, але таксама ўзрост, пол, гады жыцця і інш. Гэта кадзіраванне інфармацыі мае назву метаразметка), структурных (глава, абзац, сказ, словаформа) і ўласна лінгвістычных, якія апісваюць лексічныя, граматычныя і іншыя характарыстыкі элементаў тэксту. Сярод лінгвістычных тыпаў разметкі выдзяляюцца:

· марфалагічная разметка, якая ўключае не толькі прыкмету часціны мовы, але і прыкметы граматычных катэгорый, уласцівых гэтай часціне мовы. Гэта асноўны тып разметкі: па-першае, большасць вялікіх корпусаў з’яўляюцца марфалагічна размечанымі корпусамі, па-другое, марфалагічны аналіз разглядаецца як аснова для далейшых форм аналізу – сінтаксічнага і семантычнага, па-трэцяе, поспехі ў камп’ютарнай марфалогіі дазваляюць аўтаматычна размячаць корпусы вялікіх памераў. У выніку работы праграм аўтаматычнага марфалагічнага аналізу кожнай лексічнай адзінцы прыпісваюцца граматычныя характарыстыкі, у якія ўваходзяць часціна мовы, лема (нармальная форма) і набор грамем (напрыклад, род, лік, склон, адушаўлёнасць /неадушаўлёнасць, пераходнасць і да т.п.);

· сінтаксічная разметка, якая з’яўляецца вынікам сінтаксічнага аналізу, ці парсінга (англ. parsing), які выконваецца на аснове марфалагічнага аналізу. Гэты від разметкі апісвае сінтаксічныя сувязі паміж лексічнымі адзінкамі і разнастайнымі сінтаксічнымі канструкцыямі (напрыклад, даданы сказ, дзеяслоўнае словазлучэнне і да т.п.). У выніку работы праграм аўтаматычнага сінтаксічнага аналізу фіксуюцца сінтаксічныя сувязі паміж словамі і словазлучэннямі, а сінтаксічным адзінкам прыпісваюцца суадносныя характарыстыкі (тып сказа, сінтаксічная функцыя і да т.п.);

· семантычная разметка, якая абазначае семантычныя катэгорыі, да якіх адносіцца данае слова ці словазлучэнне, і больш вузкія падкатэгорыі, якія спецыфікуюць яго значэнне;

· анафарычная разметка, якая фіксуе рэферэнцкія сувязі, напрыклад, займеннікавыя;

· прасадычная разметка. У прасадычных корпусах выкарыстоўваюць меткі, якія апісваюць націск і інтанацыю. У корпусах вуснага размоўнага маўлення прасадычная разметка часта суправаджаецца так званай дыскурснай разметкой, якая служыць для абазначэння паўз, паўтораў, агаворак, і г.д.

Існуюць і іншыя тыпы разметкі.

Можна сказаць, што прадметам корпуснай лінгвістыкі з’яўляюцца тэарэтычныя асновы і практычныя механізмы стварэння і выкарыстання вялікіх масіваў моўных дадзеных, прызначаных для лінгвістычных даследаванняў у інтарэсах шырокага кола карыстальнікаў.

Любы камп’ютарны корпус тэкстаў як мінімум павінен ажыццяўляць пошук па наступных параметрах:

1) канкрэтная словаформа (напр. шчаслівага);

2) лексема (напр., шчаслівы – выдае шчасліваму, шчаслівых …);

3) марфалагічныя параметры (напр., “усе назоўнікі pluralia tantum”);

4) лінейная пазіцыя адносна іншай лексемы/словаформы, абсалютная ці адносная (напр. “усе кантэксты са словамі, якія пачынаюцца з рас -, непасрэдна пасля лексемы крыху ”);

5) лінейная пазіцыя ў сказе (напр. “усе ўваходжанні і на пачатку сказа”);

6) колькасць уваходжанняў у сказе/абзацы;

7) дата і тып тэксту;

а таксама па камбінацыях дадзеных параметраў.

2. Першыя лінгвістычныя корпусы тэкстаў з’явіліся ў 60-я гады ХХ ст. У 1963 г. у Браўнаўскім універсітэце (ЗША) упершыню быў створаны вялікі корпус тэкстаў на машынным носьбіце (Brown Corpus). Аўтары корпуса У. Фрэнсіс (W. Francis) і Г. Кучэра (H. Kucera) спраектавалі яго як набор празаічных друкаваных тэкстаў амерыканскага варыянта англійскай мовы (усяго такіх тэкстаў 500, аб’ём кожнага 2000 слоў). Тэксты належалі да пятнаццаці найбольш масавых жанраў англамоўнай друкаванай прозы ЗША. Браўнаўскі корпус суправаджаўся не толькі пашыраным апісаннем, але і вялікай колькасцю матэрыялаў яго першаснай статыстычнай апрацоўкі – частотны і алфавітна-частотны слоўнік, разнастайныя статыстычныя дадзеныя. З’яўленне Браўнаўскага корпуса выклікала агульную зацікаўленасць і гарачыя дыскусіі. Перш за ўсё яны закранулі прынцыпы адбору тэкстаў і шэраг задач, якія патэнцыяльна вырашаюцца з дапамогай такога корпуса.

Неўзабаве з’явіўся брытанскі аналаг Браўнаўскага корпуса Ланкастэрскі корпус англійскай мовы (Lancaster-Oslo-Bergen Corpus, LOB), названы, як і Браўнаўскі, паводле месца яго стваэння. Сярод сучасных корпусаў англійскай мовы найбольш вядомы Брытанскі нацыянальны корпус (British National Corpus, BNC, адрас: www.sara.natcorp.ox.ac.uk), які з’яўляецца ўзорам нацыянальнага моўнага корпуса. Агульны аб’ём корпуса 100 млн словаўжыванняў. Корпус адлюстроўвае стан англійскай мовы (яго брытанскага варыянта) 2-ой паловы XX ст. Апошняя на сённяшні дзень рэдакцыя корпуса выйшла ў свет у 2007 г. 90% тэкставай базы корпуса складаюць узоры літаратурнай пісьмовай мовы, 10% – транскрыпты гутарковага маўлення.

Сярод мноства праектаў амерыканскіх корпусаў адзіным праектам з адкрытым доступам да базы дадзеных з’яўляецца Корпус сучаснай амерыканскай англійскай мовы (Corpus of Contemporary American English, COCA, адрес: www.americancorpus.org), агульны аб’ём якога 410 млн словаўжыванняў са 160 тыс. тэкстаў. Стваральнікам корпуса з’яўляецца Марк Дэйвіс (Mark Davies), прафесар корпуснай лінгвістыкі Універсітэта Брыгама Янга. Апошняе абнаўленне корпуса праводзілася летам 2010 г. 85 млн. токенаў складаюць транскрыпты вуснага маўлення, узятыя з электронных мас-медыа; 81 млн. – мастацкая літаратура; 86 млн. – папулярныя часопісы; 81 млн. – газеты і 81 млн. – акадэмічныя выданні.

Калекцыя COSMAS (адрас: www.corpora.ids-mannheim.de/ccdb) уяўляе самы вялікі ў свеце электронны збор сучасных нямецкамоўных тэкстаў. Агульны аб’ём корпуснай базы – каля 2 млрд. слоў.

Корпус французскіх тэкстаў Bibliothèque Universelle (www.abu.cnam.fr) уключае творы французскай літаратуры, а таксама некаторыя перакладныя тэксты на французскай мове.

Прадстаўнічы корпус іспанскай мовы (Corpus de Referencia del Español Actual, CREA, адрас: www.corpus.rae.es/creanet.html) адлюстроўвае мову за перыяд з 1975 па 1999 гг. 50% корпуса складаюць еўрапейскія тэксты, 50% – лацінаамерыканскія. 90% аб’ёма корпуса займаюць пісьмовыя тэксты, 10% запісы вуснага маўлення.

Самай поўнай крыніцай для вывучэння рускай мовы сёння з’яўляецца Нацыянальны корпус рускай мовы (адрас: www.ruscorpora.ru) – 120 млн словаўжыванняў.

У стане станаўлення і стварэння знаходзяцца нацыянальныя корпусы некаторых заходнееўрапейскіх моў:

Нацыянальны Корпус Польскай Мовы (Narodowy Korpus Języka Polskiego, адрес: http://www.nkjp.pl). 450 млн. слоў на сённяшні дзень.

Чэшскі нацыянальны корпус (Český národní korpus, ČNK, адрес: www.korpus.cz). Структура корпуса: 1) падкорпус газет і часопісаў 1995 – 2007 гг. (2009 г., 700 млн.); 2) падкорпус газет і часопісаў 1990 – 2004 гг. (2006 г., 300 млн.); 3) сбалансаваны падкорпус тэкстаў 2000 – 2004 гг. (2005 г., 100 млн.); 4) сбалансаваны падкорпус тэкстаў 1990 – 1994 гг. (2000 г., 100 млн.); 5) сацыялінгвістычна сбалансаваны падкорпус гутарковай чэшскай мовы (2008 г., 1 млн.), дыяхранічны падкорпус DIAKORP (1,6 млн.) і інш.

Славацкі нацыянальны корпус (Slovenský národný korpus, SNK, адрес: www.korpus.juls.savba.sk). Налічвае больш за 520 млн токенов. 65% корпуснай базы складаюць публіцыстычныя тэксты, 17% – мастацкая літаратура, 16% – спецыялізаваныя тэксты і 2% – іншыя.

Харвацкі нацыянальны корпус (Hrvatski nacionalni korpus, HNK, адрес: www.hnk.ffzg.hr). Будучая структура корпуса, аб’ёмам 100 млн словаўзжыванняў, будзе выглядаць наступным чынам: 74 % – інфармацыйныя тэксты (у т.л. 37% – газеты, 16% – часопісы, 21% – публіцыстыка), 23% – мастацкая проза і 3% – іншыя тэксты.

Часткай ідэі стварэння нацыянальнага корпуса славенскай мовы з’яўляецца праект “Nova Beseda” (адрес: www.bos.zrc-sazu.si/a_about_si.html) – славенскі моўны корпус, база якога налічвае на сённяшні дзень 162 млн словаўжыванняў, 4158 тэкстаў.

Нацыянальны корпус балгарскай мовы (адрес: www.search.dcl.bas.bg), база якога налічвае на сённяшні дзень 320 млн словаўжыванняў, 10 тыс. тэкстаў.

Беларускі корпус тэкстаў і беларуская корпусная лінгвістыка яшчэ ў самым пачатку станаўлення. Інстытутам мовазнаўства АНБ і Нацыянальным навуковым асветніцкім цэнтрам тія Ф.Скарыны распрацаваны праект “Праблемы рэпрэзентатыўнасці і стварэння корпуса беларускай мовы”. Гэты праект быў разлічаны на 5 гадоў (да 2005 г.); прадугледжвалася выпрацоўка агульнай канцэпцыі корпуса, яго стандартаў, а таксама збор і перанос на электронныя носьбіты тэкстаў для так званага дэманстрацыйнага варыянта на 500 тыс словаўжыванняў.

Па заказе Міністэрства інфармацыі Беларусі ў навукова-даследчай лабараторыі інтэлектуальных інфармацыйных сістэм на факультэце прыкладной матэматыкі БДУ (загадчык лабараторыі д.ф.-м.н. прафесар І.В.Соўпель) створаны Машынны фонд беларускай мовы. У межах праекта распрацаваны генеральны слоўнік беларускай мовы, які ўключае:

· універсальны слоўнік (140240 парадыгм, што складае 1259720 словаформаў, у тым ліку дзеясловаў – 45654 парадыгмы, назоўнікаў – 54461 парадыгма, прыметнікаў – 41895 парадыгм);

· слоўнік уласных імёнаў. У які ўваходзяць і геаграфічныя назвы (15772 словы);

· слоўнік скарачэнняў і абрэвіятур (250 слоў);

· слоўнік сінонімаў (5927 сінанімічных радоў);

· слоўнік амонімаў (50 562 групы);

· слоўнік антонімаў (188 груп);

· частотны слоўнік (16 480 слоў);

· зваротны слоўнік (125 682 словы);

· слоўнік націскаў (112 227 парадыгм);

· слоўнік ідыём (5075 беларускіх ідыём);

· тэрміналагічныя слоўнікі (біялогія, ваенная справа, матэматыка, фізіка, кібернэтыка, юрыспрудэнцыя, літаратуразнаўства, лінгвістыка; агульная колькасць тэрмінаў – 32 795);

· двухмоўныя машынныя слоўнікі: беларуска-рускі (219 601 парадыгма) і руска-беларускі (219 617 парадыгм);

· зыходны корпус тэкстаў для рускай і беларускай моў (агульны аб’ём – 10 млн словаўжыванняў);

· анатаваны корпус тэкстаў вышэйназваных моў, элементамі якога з’яўляюцца: 1) паралельны беларуска-рускі корпус тэкстаў (агульны аб’ём – 2 млн словаўжванняў); 2) табліцы дзеяслоўнага кіравання (з прыназоўнікам і без прыназоўніка); 3) сістэма арфаграфічнага карэктара; 4) сістэма беларуска-рускага і руска-беларускага машыннага перакладу; 5) сістэма аўтаматычнага рэферыравання беларускіх тэкстаў.

МФБМ дазваляе ствараць спецыяльныя падкорпусы. Слоўнікі і базы дадзеных, напрыклад, слоўнік адзінак, не зафіксаваных ў ТСБМ (Мінск, 1977-1984), – 17 тыс. лексем.

На сённяшні дзень у Беларусі няма корпусаў, якія б адпавядалі патрэбам будучага тлумачальнага слоўніка. Існуе некалькі корпусных праектаў, якія могуць стаць асновай для будучага Нацыянальнага корпусу: Вялікі корпус беларускай мовы (Мінскі дзяржаўны лінгвістычны ўніверсітэт) і корпус навуковых тэкстаў беларускай мовы Corpus Albaruthenicum (Беларускі нацыянальны тэхнічны ўніверсітэт). Абодва корпусы ствараюцца пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры НАН.

У першай палове 90-х гг. ХХ ст. корпусная лінгвістыка канчаткова сфарміравалася як асобны раздзел навукі аб мове. Пры гэтым яна цесна ўзаемадзейнічае з камп’ютарнай лінгвістыкай, выкарыстоўвае яе дасягненні і ў сваю чаргу абагашчае яе. У гэты час былі зроблены першыя крокі па аб’яднанні і каардынацыі намаганняў лінгвістаў розных краін, якія працуюць над стварэннем корпусаў тэкстаў. У 1992 г. створана Еўрапейская корпусная ініцыятыва (ЕСІ). У актыве арганізацыі каля 40-50 корпусаў тэкстаў на еўрапейскіх мовах, кожны аб’ёмам ад 12 тыс. да 5 млн слоў. Мэта арганізацыі – стварэнне прадстаўнічых корпусаў тэкстаў на максімальнай колькасці еўрапейскіх моў, а таксама стварэнне паралельных корпусаў тэкстаў, спачатку на англійскай, французскай, нямецкай, іспанскай мовах. Распрацаваны стандарты стварэння камп’ютарных корпусаў тэкстаў, выходзяць перыядычныя выданні, прысвечаныя корпуснай лінгвістыцы, рэгулярна адбываюцца канферэнцыі і форумы.

3. Нягледзячы на разнастайнасць корпусаў, можна выдзеліць два асноўныя спосабы дзялення корпусаў на класы: 1) гэта супрацьпастаўленне корпусаў, якія адносяцца да ўсёй мовы (часта да мовы пэўнага перыяда), корпусам, якія адносяцца да якой-небудзь падмовы (жанр, стыль, мова пэўнай узроставай ці сацыяльнай групы, мова пісьменніка ці вучонага і да т.п.); 2) падзел корпусаў па тыпу лінгвістычнай разметкі, паколькі большасць існых корпусаў адносіцца да корпусаў марфалагічнага або сінтаксічнага тыпа (апошнія ў англамоўнай літаратуры называюць treebanks, што можна перакласці як «банкі сінтаксічных структур»). Пры гэтым трэба адзначыць, што корпус з сінтаксічнай разметкай наяўна ці не ўключае ў сябе і марфалагічныя характарыстыкі лексічных адзінак.

Увогуле існуе вялікая колькасць розных тыпаў корпусаў. Іх разнастайнасць вызначаецца шматаспектнасцю даследчых і прыкладных задач, для рашэння якіх яны ствараюцца, і рознымі крытэрыямі класіфікацыі. У залежнасці ад пастаўленых мэтаў і класіфікацыйных прыкмет, можна вызначыць розныя тыпы корпусаў (гл. табліцу).

Класіфікацыя корпусаў

Прыкмета Тыпы корпусаў
Тып дадзеных Пісьмовыя Маўленчыя Змешаныя
Мова тэкстаў Беларуская Руская Англійская і г.д.
«Паралельнасць» Аднамоўныя Двухмоўныя Шматмоўныя
«Мастацкасць», спецыфічнасць Мастацкія Дыялектныя Размоўныя Тэрміналагічныя Змешаныя
Жанр Мастацкія Фальклорныя Драматычныя Публіцыстычныя
Даступнасць Свабодна даступныя Камерцыйныя Закрытыя
Прызначэнне Даследчыя Ілюстрацыйныя
Дынамічнасць Дынамічныя (маніторныя) Статычныя
Разметка Размечаныя Неразмечаныя
Характар разметкі Марфалагічныя Сінтаксічныя Семантычныя Прасадычныя і да т.д.
Аб’ём тэкстаў Поўнатэкставыя «Фрагментнатэкставыя»
Храналагічны аспект Сінхранічныя Дыяхранічныя
«Супольнасць» Агульныя Аднаго пісьменніка
Структура Цэнтральныя і архіўныя Ядзерныя і перыферыйныя

Слоўнік

Корпус тэкстаў – вялікі, прадстаўлены ў электронным выглядзе, уніфікаваны, структураваны, размечаны, філалагічна кампетэнтны масіў моўных дадзеных, які выкарыстоўваецца для рашэння канкрэтных лінгвістычных задач.

Корпусны менеджэр (ці корпус-менеджэр) (англ. corpus manager) – спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.

Канкарданс – спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу.

Рэпрэзентатыўнасць – гэта неабходна-дастатковае і прапарцыянальнае прадстаўленне ў корпусе тэкстаў розных перыядаў, жанраў, стыляў, аўтараў і да т.п.

Разметка (tagging, annotation) заключаецца ў прыпісванні тэкстам і іх кампанентам спецыяльных метак (tag, tags).

Метаразметка – прыпісванне тэксту атрыбутаў, якія характарызуюць умовы яго стварэння, аўтара, тэматыку, жанравыя асаблівасці і інш.

Лематыза́цыя — працэс прывядзення словаформы да лемы — яе нармальнай (слоўнікавай) формы.

Treebank – корпус сінтаксічнага тыпу.

Спіс літаратуры

1. Барковіч, А. А. Корпусная лінгвістыка: яе гісторыя, магчымасці, развіццё ў Беларусі / А.А. Барковіч // Роднае слова. – 2009. - № 2. – С. 32 – 37.

2. Захаров, В.П. Корпусная лингвистика: учебно-методическое пособие / В.П. Захаров. – СПб., 2005. – 48 с.

Гісторыя развіцця камп’ютарнай лінгвістыкі ў Беларусі

У Беларусі пачаткам работ па камп’ютарнай лінгвістыцы можна лічыць 1965 год. Менавіта тады на падставе рашэння Прэзідыума Акадэміі Навук СССР быў накіраваны на кафедру агульнага мовазнаўства Мінскага дзяржаўнага педагагічнага інстытута замежных моў (МДПІЗМ) «для чытання лекцый, аказання дапамогі ў правядзенні навуковых работ і падрыхтоўкі навуковых кадраў» доктар філалагічных навук з Ленінграда Р.Г. Піатроўскі. У гэты жа годзе аспірантамі на гэтую ж кафедру па спецыяльнасці “структурная, прыкладная і матэматычная лінгвістыка» былі рэкамендаваны два матэматыкі-праграмісты, якія закончылі МДУ імя М.В. Ламаносава і МДПІ імя М. Горкага. Яны разам з выкладчыкамі-лінгвістамі МДПІЗМ і іншымі вопытнымі праграмістамі г. Мінска сталі праводзіць на камп’ютары «Мінск-22», першыя работы па аўтаматычнаму складанню частотных слоўнікаў па тэкстах розных падмоў і частотных спісаў словаспалучэнняў. Ужо ў 1969 г. в МДПІЗМ быў выпушчаны зборнік навуковых работ «Статистика текста. Том 1», дзе апублікаваны 15 артыкулаў па выніках аўтаматычнага складання частотных спісаў слоў і словаспалучэнняў розных моў.

У наступных навуковых зборніках, якія выйшлі ў МДЛУ [6; 7; 8; 9; 10; 11; 12; 13; 14; 15], задачы выкарыстання камп’ютара ў лінгвістычных даледаваннях усё больш ускладняліся. Так, паслядоўна вырашаліся наступныя задачы:

1970-ы год: аўтаматычны пераклад; аўтаматычная сегментацыя англійскіх і нямецкіх сказаў; сінтэз відавых фомаў рускага дзеяслова;

1972-і год: аўтаматычны сінтаксічны аналіз; аўтаматычнае ліквідаванне лексічнай неадназначнасці;

1977-ы год: фармалізацыя зместу англамоўных тэкстаў тэхнічных апісанняў; фармалізацыя структуры рэкламнага тэксту і яго стварэнне.

Аналагічныя даследаванні праводзіліся кафедрай інфарматыкі і прыкладной лінгвістыкі МДПІЗМ (и на хоздоговорных условиях по заказу различных городов Советского Союза (Минска, Ленинграда, Свердловска и др.). Например, такие [16; 17; 18; 19; 20]).

У гэтыя ж гады на кафедры эксперыментальнай фанетыкі МДПІЗМ (зараз МДЛУ) паспяхова працавала над праблемамі камп’ютарнай лінгвістыкі, звязанымі з сінтэзам вуснага маўлення, к.ф.н., прафесар Алена Барысаўна Карнеўская. Яе праца ў сааўтарстве з супрацоўнікам Інстытута тэхнічнай кібернэтыкі АНБ, д.т.н. Барысам Мяфодзьевічам Лабанавым, дазволіла стварыць сінтэзатар «ФАНЕМАФОН-4», а ў будучым – рад іншых сістэм сінтэзу маўлення [21].

З 1966 года актыўна працавала ў Мінску навукова-даследчая група па праблемам штучнага інтэлекту. Узначальваў яе д.ф.н., прафесар Віктар Уладзіміравіч Мартынаў, які паспяхова займаўся праблемамі фармалізацыі семантыкт тэкстаў з мэтай іх аўтаматычнай апрацоўкі.

Рашаючы розныя задачы, звязаныя з выкарыстаннем метадаў камп’ютарнай лінгвістыкі, кафедра інфарматыкі і прыкладной лінгвістыкі МДЛУ актыўна супрацоўнічала з прафесарам кафедры прыкладной лінгвістыкі БДУ Уладзімірам Аляксандравічам Карпавым і к.ф.н., дацэнтам гэтай жа кафедры Анастасіяй Іванаўнай Галаўня.

Па праблемах стварэння машыннага фонду беларускай мовы і корпуса тэкстаў беларускай мовы кафедра інфарматыкі і прыкладной лінгвістыкі МДЛУ супрацоўнічае з к.ф.н., дацэнтам, загадчыкам кафедры агульнага і славянскага мовазнаўства ГрДУ Людмілай Васільеўнай Рычковай.

Адзін з асноўных накірункаў навуковых работ кафедры ў апошні час звязаны з праблемамі корпуснай лінгвістыкі. Створаны два паралельныя (англа-рускі і франка-рускі) тэгіраваныя корпусы тэкстаў, якія ўключаюць тэксты па лінгвістыцы (аўтаматычная апрцоўка тэкстаў), паэзіі і справавой дакументацыі. Да размяшчэння на сайце НКРМ рыхтуюцца пад кіраўніцтвам д.ф.н. прафесара Аляксандра Васільевіча Зубава руска-беларускі і беларуска-рускі паралельныя корпусы. (см. Зубов, А. В. Лингво-методические возможности русско-белорусского параллельного корпуса текстов / А. В. Зубов // Русский язык: Исторические судьбы и современность. IV Международный конгресс исследователей русского языка. Труды и материалы. – М.: МГУ, 2010. – С. 516-517.)

Сумесна з Інстытутам мовы і літаратуры імя Якуба Коласа і Янкі Купалы Нацыянальнай Акадэміі навук РБ вядзецца праца па стварэнні вялікага корпуса тэкстаў беларускай мовы, які ўключае 1 млн. словавыкарыстанняў беларускіх тэкстаў і па 200 000 словавыкарыстанняў руска-беларускіх, англа-беларускіх і нямецка-беларускіх тэкстаў.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: