Теория и практика машинного перевода

Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 году в Джорджтаунском университете (Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода. И хотя с тех пор прошло более полстолетия, проблема машинного перевода всё еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты машинного перевода в конце пятидесятых – начале шестидесятых годов. Поэтому, оценивая сегодняшнюю реальность приходится говорить как о достижениях, так и разочарованиях.

Мы уже говорили о том, что для того, чтобы научить машину переводу, на основе «порождающей семантики» и действующей языковой модели «смысл ↔ текст» была создана семантическая модель перевода. Задача состояла в том, чтобы снабдить электронный мозг достаточным количеством синонимов, конверсивов, синтаксических дериватов и семантических параметров, которыми он бы мог манипулировать в процессе перевода. А перевод в то время понимался лишь как процесс подстановки слов и словосочетаний одного языка вместо слов и словосочетаний другого языка.

Это было также время, когда лингвисты, работавшие в области машинного перевода, пытались описать естественный язык с помощью математических символов. В отличие от Ретцкера и Федорова, стремившихся установить имеющиеся закономерности на основе практических наблюдений, они ставили своей целью создание дедуктивной теории. Речь шла о разработке свода правил, применение которых к определенному набору языковых единиц могло бы привести к порождению осмысленного текста. Языковые единицы выступали в виде математических символов, которые в результате применения к ним названных правил, также выраженных математически, можно было расположить определенным образом. После декодирования комбинация символов превращалась в текст.

Ученые создали специальный язык, состоящий из математических символов, который мог быть использован машиной в качестве посредника при переходе от исходного текста к тексту перевода. Язык посредник это «метаязык» переводческой теории. В лингвистике под метаязыком обычно понимается «язык второго порядка», то есть язык на котором строятся рассуждения о естественном языке или каких либо других явлениях. Так, говоря о грамматике, мы пользуемся специальными словами, или терминами, и выражениями, а при обсуждении области медицины, применяем другой терминологический аппарат. Иными словами, метаязык, или «язык-посредник», перевода представляет собой комплекс структурно-лингвистических характеристик, позволяющих с достаточной полнотой описать процесс перевода.

По замыслу авторов теории машинного перевода в основе языка-посредника лежал концептуальный аппарат «порождающей семантики» и модели «смысл ↔ текст». Был подготовлен набор правил для преобразования поверхностных структур английского языка в ядерные предложения. Ученые далее ожидали, что с помощью языка-посредника машина легко преобразует глубинные структуры исходного языка в глубинные структуры переводящего языка, а затем и в его поверхностные структуры. Но полученные результаты не был полностью удовлетворительными. Качество машинного перевода оказалось очень низким и последующие попытки улучшит его к успеху на привели. В чем же была причина?

Как упоминалось ранее, ученые в то время, то есть в начале пятидесятых и середине шестидесятых годов прошлого века, ориентировались на лингвистическую теорию структурализма, основанную на описании и интерпретации языковых явлений строго в рамках внутриязыковых отношений и не допускающую выхода за пределы языковой структуры при анализе этих явлений. Они, конечно, знали то, что хорошо известно каждому переводчику-практику. А именно, важность учета конкретной обстановки, в которой протекает данный акт межъязыкового общения, а также ситуации, описываемой в переводимом сообщении. Эта информация с точки зрения качества переводного текста играет не меньшую роль, чем собственно языковые явления.

Для того, чтобы примирить это обстоятельство с требованием не выходить за рамки внутрилингвистических отношений, переводческую деятельность предлагалось разделить на два компонента — собственно перевод, осуществляемый по заданным правилам без обращения к внеязыковой действительности, отраженной в опыте или восприятии переводчика, и интерпретацию, включающую привлечение внелингвистических данных.

Но это явно идет в разрез с тем, что нам известно о реальных процессах обычного, то есть немашинного перевода. Для перевода, осуществляемого человеком характерно органическое и неразрывное единство собственно языковых и внеязыковых факторов. Дело в том, что в любом речевом произведении далеко не все выражено явно, или, как говорят лингвисты, эксплицитно. Многое обычно остается невыраженным, подразумеваемым. Всякое высказывание адресуется определенному лицу или определенной аудитории. Автор высказывания при этом исходит из того, что его слушатели или читатели обладают достаточными знаниями для того, чтобы однозначно интерпретировать то или иное сообщение без уточняющих подробностей.

Таким образом, машинный перевод, основанный только на анализе формально-структурных закономерностей исходного текста, не позволяет вскрыть взаимодействие лингвистических и внелингвистических факторов и, тем самым, оставляет без внимания важнейшую составляющую межъязыкового общения. В этом и заключалась основная причина его неудовлетворительного качества.

Многими исследователями признают, что и по состоянию на настоящее время в машинном переводе не произошло каких-либо прорывов в деле реализации иных моделей, несмотря на то, что возможности компьютеров по сравнению с началом работ по машинному переводу многократно возросли, и возникли новые языки программирования, гораздо более удобные для реализации программ по созданию машинного перевода. Все дело, по-видимому, в том, что интерпретация языковых знаков по отношению к внеязыковой действительности во многих отношениях носит интуитивный характер и осуществляется бессознательно, или, как говорят, «на подкорке», а то, что делается бессознательно не может быть формализовано и передано машине в виде программного обеспечения. Поэтому машинный перевод до сих пор требует после себя человеческого редактора и служит источником многочисленных переводческих шуток.

Так, однажды машине было предложено перевести на английский язык, а затем тут же обратно на русский пословицу «С глаз долой из сердца вон». Окончательный вариант был таким: «Невидимый идиот». Почему? Потому, что соответствующая английская пословица гласит: «Outofsight— outofmind». Машина нашла её без труда. Но при обратном переводе этой пословицы на русский язык она пошла по неправильному пути. Дело в том, что в русском языке имеются прямые соответствия обоим компонентам английской фразы: Out of sight — передается словом «невидимый», тогда как английскому outofmindсоответствует русские слова «сумасшедший, безумный, идиот». Машина этими соответствиями и воспользовалась. Она просто не догадалась, что обе названные составляющие английской фразы должны передаваться не по отдельности, а как единое целое. По причине отсутствия у нее «человеческого фактора».

В целом уровень качества машинного перевода сугубо информативных текстов, контрактов, инструкций, научных докладов и т.п. значительно выше, чем текстов публицистического характера. Приведемнесколькопримеров:

Payments under this contract for the equipment listed in supplement 1 to the contract shall be effected as follows.

Платежи согласно этому контракту на оборудование, перечисленное в добавлении 1 к контракту должны быть произведены следующим образом.

Yet plenty of traps await Mr. Bush if he tries to do it alone.

Все же множество трапециевидных мышц ждет г. Буша, если он пробует идти это один.

The markets, given more and sooner than they had any reason to expect, were surprised all right.

Рынки, данные больше и скорее, чем они имели причину ожидать, удивленный хорошо.

Всё сказанное ранее позволяет сделать вывод и том, что пионеры машинного перевода и их ближайшие последователи достигли значительных успехов этой области. Но многие важнейшие проблемы им всё же решить не удалось. В этой связи представляет интерес высказывание руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото. В одной из своих статей, опубликованных в 1982 году, он сделал такое заявление: «Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже».

В том же году профессор Нагао опубликовал статью, в которой предложил новую концепцию машинного перевода. Согласно этой концепции тесты должны переводиться по аналогии с другими текстами, ранее переведенными вручную, то есть не машиной, а переводчиком. Для этой цели должен быть сформирован большой массив тематически сходных текстов и их переводов (билингвов), которые затем будут введены в сверхмощную многопроцессорную ЭВМ. В процессе перевода новых текстов из массива билингвов должны выбираться аналоги фрагментов этих текстов, которые можно будет использовать для формирования конечного текста. М.Нагао назвал свой подход к машинному переводу «Examplebasedtranslation» (перевод, основанный на примерах), а традиционный подход — «Rulebasedtranslation» (перевод по правилам).

Концепция Макото Нагао перекликается с получившей в последнее время широкое распространение концепцией «TranslationMemory» (память переводов), именуемой иногда как «SentenceMemory» (накопитель предложений). Сущность этой концепции заключается в следующем. При подготовке иноязычных вариантов каких-либо документов (например, эксплуатационной документации на продукцию машиностроительного завода) сначала их перевод выполняется вручную переводчиками высшей квалификации. Затем оригиналы документов и их переводы на иностранный язык вводятся в ЭВМ, расчленяются на отдельные предложения или фрагменты предложений, и из этих элементов строится база данных, которая далее загружается в поисковую систему. При переводе новых текстов поисковая система отыскивает в них предложения и части предложений, аналогичные тем, которые у неё имеются и вставляет их в нужные места переводимого текста. Таким образом в автоматическом режиме получается качественный перевод тех фрагментов нового текста, которые имеются в базе данных.

Не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов снова вводятся в базу данных. По мере перевода все новых и новых документов, «память переводов» постепенно обогащается, и её эффективность возрастатет.

Бесспорным достоинством технологии «память переводов» является высокое качество переводов того класса текстов, для которого она создавалась. Но база переводных соответствий, построенная для однородных текстов одного предприятия, пригодна лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов.

На преодоление этого ограничения «памяти переводов» и, что особенно важно, выход из того тупика, куда, судя по всему, зашла семантическая теория, направлена новая концепция машинного перевода, названная «фразеологической теорией машинного перевода». Главной особенностью этой концепции является мысль о том, что при переводе в качестве основных и наиболее устойчивых единиц смысла следует рассматривать не семантические компоненты, являющиеся неотъемлемой частью языка, а понятия, связанные с языком через языковые значения, но при этом выступающие в качестве самостоятельной формы осмысления человеком окружающего материального мира. Таким образом делается первый шаг к тому, чтобы научить машину оперировать не только языковыми, но и внеязыковыми аспектами перевода.

Напомню, что сознание человека способно отражать окружающий мир в форме двух сигнальных систем, Первая сигнальная система воспринимает окружающий мир через органы чувств. В результате воздействия на один из органов чувств (зрение, слух, осязание, обоняние, вкус) возникает ощущение. На основе совокупности ощущений, связанных с определенным объектом, у человека возникает целостное восприятие этого объекта. Воспринятый объект может храниться в памяти в виде соответствующего представления о нем уже без непосредственного чувственного контакта.

Вторая сигнальная система, позволяет человеку, абстрагируясь от конкретных объектов, формировать обобщенные понятия об окружающем мире. В понятии различается его объем, то есть класс объектов, обобщенных в понятии, и содержание понятия — признаки объектов, через которые осуществлено обобщение. Понятиями люди оперируют в процессе общения. Для этого за каждым понятием закрепляются определенные ярлыки — их наименования в виде отдельных слов или (что значительно чаще) словосочетаний. Причем в разных языках для обозначения одних и тех же понятий могут использоваться разные признаки (snowdrop— подснежник, eye- dog— собака-поводырь, vacuumcleaner— пылесос).

С учетом изложенных принципов, система фразеологического машинного перевода в общих чертах выглядит следующим образом. Как уже было сказано, наиболее устойчивыми элементами текста являются наименования понятий. В процессе перевода производится замена наименования понятий исходного текста на наименования этих единиц смысла на переводящем языке и оформление полученного таким образом нового текста в соответствие с грамматическими нормами переводящего языка. Как и в системах «Translationmemory», используется принцип аналогии — слова, словосочетания и фразы, отображающие типовые ситуации, переводятся по аналогии с ранее выполненными переводами этих единиц. Различие между ними состоит в том, что в системах типа «память переводов» используются не такие устойчивые отрезки текста, как понятия и типовые ситуации, а все предложения, встречающиеся в исходном тексте.

Из сказанного следует, что машинные словари являются наиболее важным компонентом систем фразеологического машинного перевода. Количество различных слов в таких языках, как русский и английский, превосходит один миллион, а количество относительно устойчивых фразеологических словосочетаний исчисляется сотнями миллионов. Фразеологические словари такого объёма быстро создать не удастся. Так, объём словаря одной из современных систем «RetransVista» составляет 3 млн. 300 тыс. словарных статей.

Составление фразеологических словарей больших объёмов потребует значительных временных затрат, поэтому в системах машинного перевода постоянным спутником фразеологических словосочетаний будут и отдельные слова. Для их перевода, как говорилось, используются положения семантической модели, качество машинного перевода при этом вызывает много нареканий.

Это, безусловно, так, но пословный перевод текстов значительно лучше, чем

отсутствие всякого перевода.

Отсюда, как считают многие специалисты в этой области, единственная разумная перспектива для систем машинного перевода в XXI веке — это сочетание фразеологического и пословного семантического перевода. При этом удельный вес удельный вес фразеологического перевода, по-видимому, должен постоянно возрастать, а удельный вес семантического перевода — постоянно уменьшаться.

Как показывает опыт, системы машинного перевода должны быть ориентированы прежде всего на перевод деловых текстов в области науки, техники, политики и экономики. Перевод художественных текстов — более сложная задача. Но и здесь в будущем можно достичь определённого успеха, если найдутся энтузиасты типа Владимира Даля, которые с помощью современных технических средств возьмут на себя нелёгкий труд по составлению мощных фразеологических словарей для этого типа текстов.

Дополнительная литература.

1. Белоногов Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации. Сб. «Проблемы кибернетики», № 28, 1974.

2. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. Сб. «Перевод в современном мире», М., ВЦП, 2001, стр. 60-69.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: