Анализ и синтез

Как мы уже видели в предыдущем разделе, каждая грамматика предполагает некоторый словарь (или лексикон), в котором слова языка классифицируются в соответствии с их вхождением в дистрибуционные классы, упоминаемые в грамматических правилах.

Как грамматику, так и словарь можно рассматривать с двух различных точек зрения, в зависимости от того, занимается ли лингвист анализом («распознаванием») корпуса высказываний или синтезом («образованием») грамматически правильных предложений. Хотя из соображений практического удобства считается, что словарь и грамматика организованы до некоторой степени различным образом в соответствии с тем, используются ли они для «распознавания» или «образования», важно понять, что сами по себе они нейтральны по отношению к этому разграничению. Любой корпус засвидетельствованных предложений может быть удовлетворительно описан лишь как «выборка» из предложений, порождаемых грамматикой (см. § 4.2.8). Таким образом, генеративная и «описательная» грамматика не противопоставляются друг другу.

Однако тот факт, что грамматика нейтральна в принципе по отношению к анализу и синтезу, не означает, что принятие одной, а не другой точки зрения не имеет никаких практических последствий. Если грамматика предназначается для синтеза, удобно организовать словарь так, чтобы можно было легко найти все элементы некоторого класса слов для замены любым из них соответствующего символа класса (например, N), что предполагается правилами лексической субституции (см. § 4.3.2). Очевидный способ сделать это — организовать лексикон как множество списков, обладающих следующей формой:

N = {man, boy, chimpanzee,...}.

С другой стороны, если мы занимаемся анализом данного текста, будет легче работать с эталонным списком, в котором слова упорядочены в соответствии с некоторым принципом (например, по алфавиту), что позволит нам быстро найти любые отдельные слова, встречающиеся в анализируемом предложении, и распознать их грамматические свойства, например:

beauty 'красота': Существительное

die 'игральная кость; умирать': Существительное, Глагол

warm 'теплый; греть': Прилагательное, Глагол.

Наши обычные словари принадлежат к этому второму типу. Традиционные грамматики обычно не составляли списков первого типа, за исключением списков для «неправильных» форм (которые. они могли записывать в грамматике, так же как и перечислять в алфавитном порядке в словаре). Они допускали возможность построения списков слов для целей «синтеза» на основе значения отдельных слов и определений «частей речи». Некоторые современные генеративные грамматики, или грамматические очерки, предусматривают частичные списки для каждого класса слов в отдельности (мы рассмотрим природу этих списков ниже). Различие между двумя видами словаря не принципиально, а касается, скорее, удобства. Современные генеративные грамматики упомянутого типа более заинтересованы в установлении грамматических классов, требуемых для описания рассматриваемого ими языка, нежели в исчерпывающей классификации всех слов в этом языке. Если все слова языка не классифицированы соответствующим образом в словаре, грамматика не будет генеративной в смысле «эксплицитности» (см. § 4.2.13).

Одно из следствий принятия точки зрения анализа, а не синтеза заключается в следующем. Если лингвист знает, что его описание отдельного языка будет использовано только для анализа зафиксированного материала (например, в некоторых проектах автоматического анализа письменных текстов для создания машинного перевода или библиотечного каталога и поиска информации), он может позволить себе менее исчерпывающую классификацию словаря и менее полное грамматическое описание языка.

Например, есть много английских существительных, оканчивающихся на ness (например, goodness 'доброта', correctness 'правильность' и т. д.). Большинство из них, как и два приведенных здесь примера, могут быть «образованы» от прилагательных (например, good 'хороший', correct 'правильный' и т. д.). Не вдаваясь здесь в природу «словообразования» (см. § 5.4.2), мы можем считать одно слово, существительное, образованным от другого, прилагательного, с помощью следующей формулы: A_x + ness = N_y. (Это можно прочесть следующим образом: «Любое слово, состоящее из члена класса слов А _x и ness, является членом класса слов N _y».) Поскольку это весьма продуктивное словообразовательное правило английского языка, можно решить, что его следует включить в грамматику; и все слова, оканчивающиеся на ness, которые можно образовать с помощью этой формулы, могут быть изъяты из словаря.

Если же мы занимаемся синтезом, мы должны решить, какие прилагательные принадлежат классу А _x; например, включает ли этот класс слова true 'верный' и strong 'сильный' с тем, чтобы trueness и strongness (в дополнение к truth 'правда' и strength 'сила' или вместо них) порождались как грамматичные или исключались как неграмматичные. Но грамматика «распознавания» не нуждается в решении этого вопроса. Эта грамматика могла бы вполне довольствоваться более общим правилом A + ness = N _y( «Любое слово, встречающееся в предложении в позиции, в которой допустимо N _y, и которое можно разложить на А и ness, должно быть принято программой распознавания»). Если бы trueness и strongness встретились в анализируемом тексте, они были бы проанализированы и признаны грамматичными; если нет, то данный вопрос не релевантен. (Слова truth и strength были бы перечислены в словаре или анализировались бы на основе иных правил. Использованный здесь пример взят из действительной программы вычислительной машины, которая успешно анализировала очень многие английские деривационные образования.)

С различием точек зрения не связано никакое принципиальное различие. Формула A + ness = N _y порождает одно и то же множество слов, используется ли она для анализа или синтеза (предполагается, что она относится к одному и тому же списку прилагательных). Но, занимаясь исключительно анализом, можно позволить себе некоторые вольности. Можно намеренно порождать (в абстрактном, математическом значении — и именно в этом значении следует всегда понимать этот термин) множество предложений, которое включало бы ряд подлежащих исключению предложений, исходя из предположения, что они так или иначе не встретятся. Исключение предложений, которые предположительно не встретятся, значительно увеличило бы «затраты» (см. § 4.2.11). Этот принцип «эффективности затрат» часто применяется при автоматическом анализе языка с помощью компьютера, поскольку принцип «снижения рентабельности» имеет весьма прямую экономическую интерпретацию (в виде дополнительного времени, необходимого для программирования, излишних затрат времени компьютера и т. д.).

Следует, впрочем, учесть возможность неправильного понимания соотношения анализа и синтеза. Тот факт, что грамматика нейтральна по отношению к анализу и синтезу, не означает, что анализ — это просто нечто обратное синтезу (или vice versa). Не следует, например, полагать, что программа вычислительной машины могла бы проходить «сверху вниз» по набору правил (и от грамматики к словарю) при «образовании» предложений и «снизу вверх по тому же набору правил (и от словаря к грамматике) при «рас познавании» конкретного корпуса материала. Как «образование», так и «распознавание», производится ли оно говорящими и слушающими или компьютером, предназначенным для моделирования их речевого «поведения», по-видимому, предусматривают «обратную связь» между этими двумя процессами (см. § 3.2.9). В исследовании этой проблемы с психологической точки зрения достигнуты пока лишь незначительные успехи; некоторые «психолингвистические» исследования были неудачными из-за непонимания того факта, что «генеративный» («порождающий») не означает «производящий». Отсюда этот предостерегающий абзац.

21 22 23 24 25 26 27

Подборка статей по вашей теме: