Компютерна лексикографія

  1. Це компютерний або автоматичний словник, і компютерний варіант традиційного словника
  2. Типи компютерних словників
  3. Лексикографічні процесори їх склад та призначення

Компютерний або автоматичний словник – це словник процедурою укладання якого здійснює компютер. Потрібно відрізняти комппютерний словник від компютерного варіанта чи копії традиційного укладеного людиною словника. Останні подають лише нову компютерну форму інформації вміщеної в традиційних словниках, а отже це лише трансформація форми уже готового продукту Лексикографічного опрацювання мовного матеріалу традиційними не компютерними методами.

Компютерний словник і компютерний варіант традиційного словника становлять результати двох напрямків роботи у сучасній компютерній лексикографії:

  1. це переведення у компютерну форму вже існуючих словників укладених людиною, створення на їхній основі словникозорієнтованих баз даних різної структури та призначення.
  2. розроблення поняттєвого та процедурного апарату лінгвістичних алгоритмів та процесорів для конструювання компютерних словників нових типів

В україні вже накопичено цільний досвід роботи в обох цих напрямках. Прикладом першого напрямку може служити словникозорієнтованна база даних морфемно-ловотвірного фонду інституту мовознавства імені Потебні, бази даних 11томного тлумачного словника української мови та академічного орфографічного словника української мови, а також різноманітні частотні словники, тезауруси, термінологічні словникові бази даних, розроблювані співробітниками університету Львівська Політехніка та інші. До цієї роботи залучено традиційні словники, а саме тлумачні, перекладні, термінологічні, морфемні, орфографічні та орфоепічні. Для забезпечення можливості виконання нових дослідницьких завдань створюються не компютерні копії, а компютерні версії таких традиційних словників зі своїми граматиками аналізу та синтезу текстів словникових статей. Перевага компютерно версії над компютерними копіями полягає у можливості їхнього багаторазового і багатоаспектного використання. Автоматичної переорганізації, доповнення чи стиснення вміщеної в них інформації про ті чи інші мовні обєкти. Форматом статті компютерного словника прийнято називати моджель організації, розміщення та графічного представлення в словнику інформації про описувані в ньому мовні обєкти. Вироблення такого формату становить разом зі створенням бази даних та лексикографічного процесора невідємний складник, процесу укладання компютерного словника. Інший напрямок досліджень з компютерної лексикографії становить конструювання словників з новими лінгвістичними обєктами, як одиницями реєстру, або одиницями опису й пояснення в таких словниках. Прикладом такого типу компютерних словників є створювані на основі одномовних тлумачних словників, семантичні або ідеографічні словники. Першою спробою укладання такого словника за допомогою компютера став опублікований в 1982року за редакцією караулова «Русский семантический словарь: опыт автоматического построения тезауруса от понятия к слову». Сематничний словник автори розглядали, як різновид резаурусів, одномовних словників ідеографічного або ідеологічного типу, в яких слова впорядковано на основі спільності виражених ними понять. Стрижень ідеографічних словників становить так звана синоптична або зведена схема понять, що є основою семантичної класифікації лексики. Укладати такі словники почали ще в другій половині 19ст. першим серед лексиграфічних праць ідеографічного типу став тезаурус англійських слів та висловів авторе Роже 1852, а також словники Дорнзайфа та Халліга й Вартбурга для німецької мови, Кассареса, Буасєра для французської. Після упублікування компютерного «русского семантического словаря» світ побачила низка ідеографічних словників російської мови укладених вручну з використанням різних методик семантичного аналізу лексики та її с-мної організації, а саме словник «лексическая основа русского язика» за редакцією Морковкіна 1984 року, «идеографический словарь глагола русского язика» за редакцією Баранова 1995

«русский семантический словарь за редакцією шведової 1998, а також «толковий словарь русских глаголов, «идеографическое описание, английские еквиваленти за Редакцією Бабенко 1999. У межах прикладної лінгвістики термін тезаурус від латинського скарб, скарбниця трактується, як різновид ідеографічного словника для потреб с-м автоматичного пошуку інформації. Різновидом такої с-ми стала База даних для укладання русского сентического словаря. Підкреслюючи відмінність цього словника від дтрадиційних укладених вручну ідеографічних словників у порядники послугуються і термінологічним апаратом інформатики. Так реєстрову одиницю становить дескриптор, тобто слово, яке є виразником спільного поняття для певного обєднання лексем, що складають його лексичне оточення в словнику. С-ма автотичного інформаційного пошуку, дескрипторами прийнято називати стандартизовані слова або словосполуки, що виконують роль образів, ключів для індексування змісту документів й подальшого автоматичного пошуку в них потрібної інформації. Усі слова упорядковані за показниками кількості та питимої ваги і їхніх тлумаченнях таких множників. Семантичний множник у свою чергу визначений як мінімальний словниковий реалізатор, компонента семантичної структури слова представлений, як основа слова, тобто складника дефініції спільна для ряду слів з тим же коренем. Отже новим лінгвістичним обєктом виступає, як саме подібне обєднання семантично повязаних слів, так і інструменти конструювання цього обєднання, тобто дескриптори та семантичні множники. Оригінальну методику семантичної класифікації лексики на основі компонентного аналізу словникових дефініцій, та організації семантично повязаних слів за ступенем узагальнення єдиного для всіх книг поняття запропонувала російська дослідниця Кузнецова. Власне компонентному аналізу дефініції, передував її логічний аналіз, виділення в її складі інтегральної частини таких ознак поняття, які повязують цю лекксему з іншими і частини диференційної тобто таких ознак, що відрізняють значення описуваного слова від значень інших слів, які виражають те саме поняття, конкретизують його в семантиці описуваного слова. Такий підхід дозволив уникнути при формуванні поняттєвих груп випадкових лексем повязаних з цими групами нерелевантними для вираження спільного поняття компонентами дефініцій, основу для формування подібних поняттєвих груп закладали спільні реалізатори, інтегральної частини дефініцій, розроблена кузнецовою методики здобула назву процедури ступінчастої ідентифікації лексики. Принцип її полягає в тому, що в дефініцяї слів виділялися реалізатори поняття спільного для лексикограматичної групи слів, та реалізатори понять,якими слова в такій групі відрізнялися одне від одного. Перші які виражали певні інтегральні семантичні ознаки було названо словниковими ідентифікаторами. А другі, що виражали ознаки диференційні називалися словниковими конкретизаторами, за ступенем узагальнення спільного поняття ідентифікатори було поділено на: родові та видові. Результатом семантичної класифікації дієслівної лексики за методикою ступінчастої ідентифікації став «толковий словарь русских глаголов». В цей словник укладено без використання компютера проте методики ступінчастої ідентифікації лексики завдяки її чіткій структурованості та орієнтуванню на вивчення реалізаторів понять. У словникових дефініціях виявилося ефективною і придатною для процедури конструювання компютерних словників ідеографічного типу. На матеріалі сучасної укр мови це переконливо продемонструвала Сніжко, уклавши за допомогою цієї методики ідеографічний тезаурус українських іменників. Середницька теж на основі цієї методики уклала український ідеографічний словник дієслів переміщення. Вироблені процедури максимально формалізовані, проте самий процес укладання словника здійснено вручну. У компютерному варіанті подано уже готовий продукт опрацювання мовного матеріалу. Запропонована методика аналізу дефініцій дозволяє досить легко перетворити текст словника на базу даних придатну для виконання різноманітних інформаційно-пошукових та дослідницьких процедур. Перевага компютерного словника перед традиційним полягає в тому, що:

  1. його укладання передбачає побудову відповідної бази даних та розроблення спеціального лексикографічного процесора
  2. сконструйований словник може ставати базою для укладання нових компютерних словників, а також виконувати ф-ії автоматичної інформаційно довідкової навчальної, редакційно-видачничої та дослідницької с-ми.

Таку перевагу демонструює лексикографічний процесор «слово» створений Львівськими дослідниками Коссаком та Маньковським, для конструювання компютерних термінологічних одно і багатомовних словників. В основу стратегії створення цього процесора покладено досвід укладання англо-українського-російського словника з інформатики та обчислювальної техніки.

Словниково термінологічна база даних має гніздовий принцип організації. Вершиною гнізда є слово певної мови до якого подані відповідні переклади. Якщо таке родове поняття має кілька видових термінів конкретизаторів вони також вміщуться в гнізді з відповідними перекладами при чому спільний для всіх них родовий термін позначений символом ««. Кожен віхідний термін має порядковий номер зліва, а українські переклади мають з права від себе порядкові номери відсилання до додатку словника, тобто вказівника російських термінів. Лексикографічний процесор становить інтерфейс, що дає можливість користувачеві працювати з базою даних в інтерктивному режимі.

 

Останнім часом у звязку з реалізацією загальнодержавної програми лексикографічного опрацювання укр мови «Словники Украхни» взято курс на координацію зусиль розробників словникових баз даних та лексикографічних процесорів, що працюють в різних наукових і нуково дослідних закладах України. Програма передбачає створення потужних іеиегральних словникових баз з гнучкими і розгалуженими лексиграфічними процесорами, що забезпечують процедури конструювання компютерних словників різних типів, а також уможливлюють користувачам доступ до таких словникових с-м з метою одержання довідкової інформації та виконання різноманітних теоритичних та пракктичних дослідницьких завдань. Цю роботу координує науково- координаційна рада інформація-мова-інтеелект очолювана Курасом, а також лінгвісти з інституту мовознавства імені Потебні, інституту української мови та українсько-мовноінформаційного фонду України. До десятиріччя незалежності України колектив лінгвістів та математиків програмістів українського мовно-інформаційного фонду створив компютерну інтегровану лексикографічну с-му. На компакт диску вміщено за абеткований реєстр укр слів, який налічує понад 150тис. Різних лексем. Ці одиниці розгортаються в 3 млн текстових слововживань. Для роботи з цим реєстром можливі 5 режимів у кожному з яких користувачеві надається інформація про певний аспект форми семантики та фукнціонування слова.

У режимі парадигма – вміщено відомості про словозмінні х-ки слів. Його роботу забезпечує відповідна лінгвістична база, яка охоплює 1500 парадигматичних класів змінюваних слів повнозначних частин мови. Режим транскрипція подає запис слова у фонетичній транскрипції. Основу якого забезпечив двухтомних орфепічний словник укранської мови.

Режими фразеологія, синоніммія та антонімія, подають відомості про різні властивості семантики слів реєстру, а саме про їхню здатність створювати фразеологічні одиниці різного типу входити до складу синонімічних баз, або рядів, а також утворювати антонімічні пари зі словами, що мають спільну інтегральну сему(значення). Зручний і простий в користуванні інтерфейс робить інтегровану лексикографічну с-му. Доступною для будь-якого користувача, невимагаючи спеціальної програмістської підготовки.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: