Правила лексической субституции

Теперь мы можем вернуться к обсуждению структуры словаря. Для простоты будем по-прежнему опираться на наше весьма простое представление о грамматических правилах. Хотя оно будет пересмотрено в последующих главах, этот пересмотр не окажет влияния на сделанные здесь общие утверждения. Итак, вернемся к первому правилу, использованному в предыдущем разделе:

Σ₁: T + N + V + T + N,

и к предполагаемым им классам слов:

T = {the}

N = {man, dog, chimpanzee,...}

V = {bites, eats, opens,...}.

Процесс лексической субституции (подстановка конкретных слов на позиции, установленные соответствующим грамматическим правилом; см. § 4.2.9) можно описать следующим образом: каждый случай появления символа грамматического класса в структурном описании предложения заменяется на любой член означенного класса, причем этот член берется из списка данного класса, приведенного в словаре. (Когда все символы грамматических классов заменены, или «переписаны», посредством многократного применения принципа лексической субституции, на «выходе» генеративной системы получается предложение, снабженное соответствующим структурным описанием.) Операция лексической субституции может быть формализована посредством следующего правила:

Х → х|х ∈ Х.

«Замени X, где X — переменная, принимающая значение всех грамматических классов, упоминаемых в генеративной системе (например, Т, N или V), на х, где х — любой член класса X». Последовательное применение этого правила лексической субституции превратит T + N + V + T + N в некоторое предложение типа The dog bites the man, как это представлено деревом на рис. 5. (Заметим, что различие между той частью «выхода», которая выводится из грамматического правила, и частью, полученной из словаря, представлено на дереве различием между сплошной и прерывистой линией. В настоящей работе мы будем везде придерживаться этого удобного соглашения.)

Рис. 5.

Поскольку правила лексической субституции действуют одинаковым образом, независимо от «значения», принимаемого Х-ом, мы можем рассматривать списки слов как множество правил, прилагаемых к грамматике, и таким образом обойтись без обобщенного правила лексической субституции. Принимая эту точку зрения (которую мы вскоре пересмотрим), мы следуем практике Хомского и других авторов первых работ по генеративной грамматике. Мы можем, следовательно, организовать словарь так, чтобы он принял следующую форму:

T → {the}

N → {man, dog, chimpanzee,...}

V → {bites, eats, opens,...}.

Стрелки можно интерпретировать как инструкцию заменить (или «переписать») элемент, находящийся слева от стрелки, на один из элементов, перечисленных справа от стрелки, например: 'y → z' означало бы «замени у на z (при условиях, определяющих систему правил)». Любая система правил, каждое из которых представлено в такой форме (способ их действия будет более подробно рассмотрен в гл. 6), называется системой подстановки (или системой правил подстановки).

Теперь используем стрелку подстановки также и для грамматического правила и объединим грамматическое правило и правила лексической субституции в одну систему:

(1) Σ₁ → T + N + V + T + N

(2) T → {the}

(3) N → {man, dog, chimpanzee,...}

(4) V → {bites, eats, opens,...}.

Это весьма простая генеративная грамматика, которую мы расширим, с тем чтобы она учитывала некоторые результаты деления классов слов на определенные подклассы.

В предыдущем разделе мы отмечали, что в рамках допущений, принятых нами при рассмотрении формальной грамматики, любая переклассификация слов в словаре производит не подклассы исходных более широких классов, а совершенно не связанные друг с другом новые классы. С грамматической точки зрения этот недостаток может быть исправлен посредством введения добавочных правил, а именно:

N → {N _a, N _b, N _c }

V → {V _d, V _e, V _f }.

Теперь мы должны внести поправки в правила лексической субституции (увеличив их число). Таким образом, новая система, включающая грамматику и словарь, примет следующий вид:

(1) Σ₁ → T + N + V + T + N

(2) N → {N _a, N _b, N _c }

(3) V → {V _d, V _e, V _f }

(4) N _a → {man, dog, chimpanzee,...}

(5) N _b → {banana, door, milk,...}

(6) N _c → {fact, meaning, structure,...}

(7) V _d → {eats, bites, frightens,...}

(8) V _d → {recognizes,...}

(9) V _f → {determines,...}.

Эта система правил формализует в пределах грамматики тот факт, что N _a, N _b и N _c представляют собой подклассы N (члены этих подклассов — «существительные»), а V _d, V _e,и V _f - подклассы V (члены — «глаголы»). Следовательно, в целях формализации этого факта наша система вводит дополнительный «слой» грамматической структуры (ср. рис. 6, представляющий дополнительный «слой» посредством ветвей «дерева», связывающих N и N _a и V и V _d). Однако это происходит за счет того, что система допускает в качестве грамматически правильных те самые сочетания подклассов, для запрещения которых и предназначался процесс субклассификации. (В вышеприведенном наборе правил нет никаких ограничений, препятствующих тому, чтобы избрать, скажем, N _b для заполнения второй позиции при V _d в третьей позиции и N _c в пятой позиции.)

Рис. 6.

Речь идет здесь о принципе синтагматической обусловленности, или совместимости, между одним и другим подклассом слов, то есть о том, что обычно называют лексической селекцией. На данном этапе мы занимаемся структурой словаря и не будем вдаваться в грамматические аспекты этой проблемы. Допустим просто, что в принципе возможна такая формализация (использующая контекстно-связанные правила; см. § 6.5.1), которая позволила бы нам сохранить понятие субклассификации, выраженное в правилах (2) и (3), и тем не менее порождать желаемые сочетания подклассов.

4.3.3. ГРАММАТИЧЕСКИЕ ПРИЗНАКИ *

Теперь мы можем представить себе все более и более дробную классификацию словаря языка (вплоть до «снижения рентабельности»). Грамматику можно расширить, например, таким образом, чтобы она включала такие добавочные правила, как

N _a → {N _a ₁, N _a ₂}

N _b → {N _b ₁, N _b ₂}

N _a ₁ → {N _a ₁₁, N _a ₁₂}

и т. д.

Каждое последующее выделение подклассов такого рода предполагает увеличение числа правил лексической субституции. Более того, очевидно, что эта формализация основывается на весьма частном (и, как мы увидим, ошибочном) предположении относительно грамматической структуры языка. Эти правила делят весь словарь на иерархически упорядоченные классы и подклассы (см. рис. 7) так, что N _a ₁₁ и N _a ₁₂ полностью принадлежат N _a ₁; N _a ₁ полностью принадлежит N _a, а N _a полностью принадлежит N и т. д. Это предположение лежало в основе первых генеративных грамматик, принявших подстановочную систему формализации (введенную в лингвистику Хомским).

Рис. 7.

Оно неудовлетворительно по двум причинам. Во-первых, оно ведет к увеличению числа отдельных списков в словаре при соответственно высокой степени многократного вхождения (см. § 4.2.10). Во-вторых, и это более важно, оно делает формулировку грамматических правил более сложной, чем этого требуют «факты». Цитируя Хомского: «Трудность состоит в том, что такая субкатегоризация [то есть выделение подклассов в словаре] обычно не является строго иерархической, а включает в себя перекрестную классификацию. Так, например, существительные в английском языке делятся на Имена Собственные (John, Egypt) и Имена Нарицательные (boy 'мальчик', book 'книга') и бывают Человеческими (John, boy) и Нечеловеческими (Egypt, book)... Но если субкатегоризация задана правилами подстановки, то какое-то из этих различий должно доминировать, и тогда другое нельзя будет сформулировать естественным образом». Например, если класс существительных сначала делится на Собственные Имена существительные и Нарицательные Имена существительные, затем каждое из них в свою очередь подразделяется на подклассы «Человеческий» и «Нечеловеческий», единственный способ сформулировать правило, относящееся ко всем «Человеческим существительным», — это отнести его к обоим совершенно не связанным классам «Собственные Человеческие» и «Нарицательные Человеческие» (поскольку в словаре нет списка «Человеческих Имен существительных»). Как пишет далее Хомский, «по мере углубления разложения [т. е. с каждой последующей субклассификацией] проблемы такого рода становятся столь значительными, что указывают на серьезную неадекватность грамматики, которая состоит только из правил подстановки». Мы не будем рассматривать предлагаемое Хомским исправление грамматических правил для решения этих проблем: в настоящей главе мы имеем дело с очень простой системой. Что касается словаря, то результат «перекрестной классификации» ясен. Предполагается, что каждое слово должно быть «индексировано» таким образом, чтобы можно было подобрать, например, любое «человеческое» существительное (независимо от того, «собственное» оно или «нарицательное»), любое «конкретное» существительное (независимо от того, «одушевленное» оно или «неодушевленное») и т. д. С этим типом классификации, или «индексирования», обычно связывают специальный термин признак (ср. в известной мере аналогичное использование термина «признак» в фонологии). Мы предполагаем, что каждое слово должно быть приведено в словаре (который уже не может теперь иметь вид системы правил подстановки, включенной в грамматику) вместе с набором признаков, например:

boy: [нарицательное], [человеческое], [мужской род],...

door: [нарицательное], [неодушевленное],...

Правило или правила лексической субституции придется, следовательно, формулировать так, чтобы можно было подобрать отдельное слово согласно одному или более указанным признакам. На каком этапе в системе порождения будут применяться правила лексической субституции — это спорный вопрос. Следует отметить, однако, что, хотя мы отказались от словаря, представленного в виде набора правил вида N _a→ {boy,...}, наше более общее правило остается в силе (см. § 4.3.2):

Х → х|х ∈ Х.

(«замени X на х, где х — член класса слов X»). Различие в том, что теперь X — это класс слов, удовлетворяющих специальной признаковой характеристике. Так, если порождаемое грамматикой предложение предусматривает «нарицательное, человеческое» существительное «мужского рода», то X —это класс, состоящий из всех слов лексикона, содержащих в качестве грамматических признаков [на-рицательность], [человечность], [мужской род], например boy. Однако списка членов этого сложного класса не существует.