Простой пример дистрибуционного анализа

Мы еще далеки от того, чтобы прийти к удовлетворительному представлению о лингвистическом описании. Мы еще не сказали, в частности, как определяются приемлемые сочетания слов. Перечисление списком всех приемлемых последовательностей слов совершенно невозможно, поскольку, как мы видели, ни один естественный язык нельзя рассматривать как ограниченное множество предложений. В случае замкнутого корпуса материала можно было бы, конечно, составить список всех фонологически (или орфографически) различных предложений и затем решать вопрос о приемлемости, справляясь в этом списке. Но это было бы малоинтересно в том смысле, что ничего не давало бы для нашего понимания способности носителя языка производить «новые» предложения; это не было бы к тому же и самым экономным способом описать данный текст. Если продолжить рассмотрение этого вопроса, мы поймем, по какой причине.

В достаточно большой и представительной выборке из предложений какого-либо языка дистрибуции разных слов будут в значительной мере совпадать. Например, вместо milk 'молоко' можно поставить beer 'пиво', water 'вода', gin 'джин' и т. п. не только в I drink a pint of milk; этот же ряд слов мог бы появиться и во многих других окружениях, в которых может встретиться milk. Аналогично, слова they 'они', we 'мы' и you 'вы' могут заменить I 'я', a buy 'покупать', take 'брать', order 'заказывать' и т. д. могут заменить drink 'пить' во многих других окружениях, кроме нашего предложения. Слова, которые, как правило, способны заменять друг друга в целом ряде различных предложений, можно сгруппировать на этом основании в дистрибуционные классы.

Допустим, что нам необходимо проанализировать корпус материала, состоящий из следующих 17 «предложений»: ab, ar, pr, qab, dpb, aca, pca, pcp, qar, daca, qaca, dacp, dacqa, dacdp, qpcda, acqp, acdp. Разными буквами обозначены разные слова: условная запись используется из соображений общности, а также чтобы пояснить, что на данном этапе мы обходимся без непосредственного привлечения семантики. (Впрочем, это может вызвать известные сомнения, поскольку мы исходим из того, что приемлемость сохраняется при операции замены, а понятие «приемлемости» включает «осмысленность». Мы, однако, стремимся разграничить «грамматическую правильность» и «осмысленность», хотя еще не достигли этого.) Мы видим, что а и р имеют некоторые общие окружения (ср. - r, pc -, dac -), так же как b и r ( ср. a -, qa -) и d и q (ср. dac - a, - аса, ас - р), но что с имеет уникальную дистрибуцию (а - а, р - а, р - р, qa - a, da - a, da - p и т. д.) в том смысле, что ни в одном окружении, в котором встречается с, не встречается никакое другое слово. Теперь поместим а и р в класс X и поставим классный показатель X всюду, где встретятся а или р (предложения, которые отличаются только тем, что в одном из них представлено а, там, где в другом представлено р, будут сведены нашими формулами в один класс предложений): Xb, Xr (ar, pr), qXb, dXb, ХсХ (аса, рса, рср), qXr, qXcX, dXcX (daca, dacp), dxcqX, dXcdX, qXcdX, XcqX, XcdX. Теперь сгруппируем b и r в дистрибуционный класс Y, a d и q — в класс Z. Подставив Y вместо b и r, a Z вместо d и q, получим: (1) XY (Хb, Xr); (2) ZXY (qXb, qXr, dXb); (3) ХсХ; (4) ZXcX (qXcX, dXcX); (5) ZXcZX (dXcqX, dXcdX, qXcdX); (6) XcZX (XcqX, XcdX). Таким образом, мы можем описать предложения нашего корпуса в терминах шести структурных формул, определяющих приемлемые последовательности классов слов (с является одноэлементным классом). Эти формулы являются линейными (в смысле, который мы поясним ниже; см. §6.1.1).

Пока мы можем удовлетвориться описанием предложений нашего корпуса в терминах их линейной структуры, то есть на языке следующих формул или правил:

(1) XY

(2) ZXY

(3) XcX

(4) ZXcX

(5) ZXcZX

(6) XcZX.

Можно считать, что каждое из этих правил описывает отдельный тип предложения. (Тот факт, что можно свести эти типы предложений к подтипам, привлекая принципы структуры составляющих, не релевантен на данном этапе изложения; см. § 6.1.2 и сл.) Заметим, что эта система правил удовлетворительно объясняет приемлемость семнадцати предложений корпуса (она определяет их как грамматичные). Но это достигается только путем включения имеющихся предложений в общее множество из 48 предложений в качестве его элементов. (Число 48 получается после применения формулы, приведенной в § 2.3.8, к каждому из шести типов предложения и суммирования результатов.) Имеется 2 × 2 = 4 предложения типа (1), 2 × 2 × 2 = 8 предложений типа (2), 2 × 1 × 2 = 4 предложения типа (3), 16 предложений типа (4), 8 — типа (5) и 8 — типа (6). 4 + 8 + 4 + 16 + 8 + 8 = 48. Поэтому язык, описываемый такой грамматикой, содержит ровно 48 предложений. Тридцать одно не встречающееся предложение можно допустить в качестве приемлемых или исключить, если мы почему-либо решим, что они должны быть исключены посредством дополнительных правил, запрещающих определенные сочетания отдельных слов. Дополнительные правила, очевидно, весьма усложнят «грамматику». Следовательно, наиболее экономным способом описания данного текста будет такой, который представит его как случайную выборку из 17 предложений, являющихся подмножеством общего множества из 48 предложений, которые и составляют язык. «Грамматика», построенная нами для описания этого текста, является генеративной в описанном выше смысле (см. § 4.2.2). Мы будем говорить, что она порождает, или характеризует, язык текста, приписывая каждому из имеющихся в «выборке» предложений (так же как и тем, которых нет в «выборке») особое структурное описание: pr — это предложение структуры XY, pcda — структуры XcZX и т. д.

Этот ограниченный искусственный язык, использованный нами в качестве примера, содержит всего семь слов, а корпус включает лишь семнадцать простых предложений (из сорока восьми, порождаемых грамматикой). В случае естественных языков ситуация, без сомнения, оказывается значительно более сложной. Число слов выражается в десятках тысяч; их дистрибуционная классификация будет не столь простой и, несомненно, не сможет быть осуществлена только что проиллюстрированным способом. Кроме того, нам придется описывать целый ряд различных типов предложений, в том числе предложения значительной степени сложности. Однако эти факты не затрагивают самого принципа. Слова естественного языка могут быть сгруппированы в дистрибуционные классы (что всегда и делалось составителями грамматик на практике, как мы увидим ниже); дистрибуционные классы, установленные для конкретных позиций в предложениях одного типа, оказываются обычно действительными и для конкретных позиций в других, более сложных типах предложений. Грамматика, как она здесь понимается, есть не что иное, как описание предложений языка в терминах сочетаемостных свойств слов (а также словосочетаний и т. д.), определяемых их принадлежностью к тому или иному дистрибуционному классу. Это род алгебры, в которой в качестве «переменных» выступают словесные классы, а в качестве «постоянных», или «значений», принимаемых этими переменными в конкретных предложениях, — индивидуальные слова.

Чтобы понять, что речь идет в принципе о такого рода описании, которое обычно называется «грамматическим», нам достаточно интерпретировать приведенный выше пример применительно к английскому языку. Пусть a = men 'мужчины', р = women 'женщины', b = live 'живут', r = die 'умирают', c = love 'любят', d = old 'старый (~ые, ~ых)', q = young 'молодой (~ые, ~ых)'. Другими словами, пусть класс X включает все те слова, которые обычно обозначаются как 'существительные во множественном числе'; пусть Y символизирует класс «непереходных глаголов», с — класс «переходных глаголов» и Z — класс «прилагательных». Наше утверждение о допустимых сочетаниях классов слов означает, что такие предложения, как Men die, Old men love young women и т. д., которые описывались традиционной грамматикой как случаи «субъектно-предикатной» конструкции, грамматически приемлемы, тогда как *Die men или *Old love young men women и т.п. неприемлемы.