Модельный эксперимент

Сначала проведем проверку нашей методики на следующем примере. Рассмотрим следующие произведения К. Булычева, А. Волкова, Н.В. Гоголя и В. Набокова.

Мы хотим проверить эффективность оценки t(F(y)). Предлагается следующий способ: выбрать каждого автора i (i = 0,1,2,3) по одному контрольному произведению y i, оценить матрицы ⁱ по другим произведениям f_i,j, а затем найти t(F(yⁱ)). Если оценка работает хорошо, то для каждого автора i должно быть t(F(yⁱ)) = i.

0) К. Булычев: Умение кидать мяч (y⁰); Белое платье золушки (g_0,1); Великий дух и беглецы (g_0,2); Глубокоуважаемый микроб (g_0,3); Закон для дракона (g_0,4); Любимец [Спонсоры] (g_0,5); Марсианское зелье (g_0,6); Миниатюры (g_0,7); "Можно попросить Нину?" (g_0,8); На днях землетрясение в Лигоне (g_0,9); Перевал (g_0,10); Показания Оли Н. (g_0,11); Поминальник XX века (g_0,12); Раскопки курганов в долине Репеделкинок (g_0,13); Тринадцать лет пути (g_0,14); Смерть этажом ниже (g_0,15);

1) А. Волков: Семь подземных королей (y¹); Волшебник изумрудного города (g_1,1); Урфин Джюс и его деревянные солдаты (g_1,2); Огненный бог Марранов (g_1,3); Гениальный пень (g_1,4); На войне, как на войне (g_1,5); О чем молчали газеты... (g_1,6); Преступление и наказание (g_1,7); Эпилог (g_1,8); Желтый Туман (g_1,9); Тайна заброшенного замка (g_1,10);

2) Н.В. Гоголь: Рассказы и повести (y², названия повестей: "Повесть о том, как поссорился Иван Иванович с Иваном Никифоровичем", "Старосветские помещики", "Вий", "Записки сумасшедшего"); Ревизор (g_2,1); Тарас Бульба (g_2,2); Вечера на хуторе близ Диканьки (g_2,3);

3) В. Набоков: Другие берега (y3); Король, дама, валет (g_3,1); Лолита (g_3,2); Машенька (g_3,3); Рассказы (g_3,4); Незавершенный роман (g_3,5).

Например, у А. Волкова контрольным произведением является y¹, т.е. "Семь подземных королей" Все остальные произведения используются для вычисления ⁱ. Результаты вычислений представляются следующей таблицей.

Таблица 1

N	Автор	c₁	c₂	c₃	c₄
0	К. Булычев	0	15	2345689	75161
1	А. Волков	0	8	1733165	233418
2	Н.В. Гоголь	0	3	723812	243767
3	В. Набоков	0	5	1658626	367179

Столбец c₂ содержит общее число файлов, в которых хранятся произведения автора. Заметим, что число файлов может не совпадать с числом произведений по двум причинам: во-первых, несколько произведений одного автора могут находится в одном файле (здесь такое произошло с А. Волковым - три повести "Желтый Туман", "Тайна заброшенного замка" и "Огненный бог Марранов" были в одном файле); во-вторых, одно большое произведение может разбиваться на несколько частей (последнее необходимо учитывать при изучении таблицы 2).

В колонке c₃ содержится суммарное число символов (букв и пробелов) в F(g_i,j): c₃ = _j F(g_i,j). В колонке c₄ содержится число символов в F(yⁱ), т.е. c4 = F(yⁱ). Например, для К. Булычева общий объем текстов _jF(g_0,j) составляет 2'345'689. Общий объем F(y¹), т.е. число символов A в повести "Умение кидать мяч", выбранной в качестве контрольного текста, равно 75'161.

В столбце c₁ в строке j находится ранг числа L_j(F(y^j)) среди чисел {L_i(F(y^j))  i = 0,1,2,3}. Под рангом мы подразумеваем номер L_j(F(y^j)) среди чисел {L_i(F(y^j))  i = 0,1,2,3}, расположенных в порядке невозрастания. Например, если j = 1 и L_i расположились в порядке L₀  L₃  L₂  L₁, то рангом L₁ будет 3. А если j = 0 и L_i расположились в том же порядке L₀  L₃  L₂  L₁, то рангом L₀ будет 0. Ранг L_j(F(y^j)), среди чисел {L_i(F(y^j)  i = 0,1,2,3} совпадает с рангом L_j(F(y^j))/F(y^j), среди чисел {L_i(F(y^j))/F(y^j) | i = 0,1,2,3}. Расположим в строках j = 0,1,2,3 следующей матрицы по 4 числа L_i(F(y^j))/F(y^j), i = 0,1,2,3:

В каждой строке найдем ранги чисел L_i:

R =

æççççè

ö÷÷÷÷ø

Искомые числа столбца c₁ стоят на диагонали. Вспоминая формулу (2.1), мы заключаем, что t(F(y^j)) = j тогда и только тогда, когда ранг L_j(F(y^j))/F(y^j) среди чисел {L_i(F(y^j))/F(y^j) i = 0,1,2,3} просто равен 0. Следовательно, если в какой-либо строке в столбце c1 таблицы 1 стоит 0, то авторство контрольного текста определено правильно. Из таблицы 1 мы видим, что у всех писателей авторство определено верно.

Прежде, чем обсудить этот результат, поясним, почему столбец c1 задан таким образом. Дело в том, что если авторство определено неверно (т.е., оказалось t(F(y^j))  j), то нас может интересовать, насколько мы были близки к правильному ответу. Если ранг L_j(F(y^j))/F(y^j) среди чисел {L_i(F(y^j))/F(y^j) i = 0,1,2,3} равен 1, то мы ошиблись всего на одного писателя. Такой случай существенно лучше случая ранга L_j(F(y^j))/F(y^j) равного 3, поскольку тут правильный писатель оказывается в списке претендентов на его собственное произведение последним, что свидетельствует о большей ошибке.

Кроме того, матрица R сама по себе допускает интересные интерпретации. Например, из первой строки мы видим, что контрольное произведение К. Булычева "Умение кидать мяч" после самого К. Булычева больше походит на В. Набокова, затем на Н. Гоголя, и в последнюю очередь на произведения А. Волкова. Из последующих двух строк можно сделать вывод, что контрольные произведения А. Волкова и Н. Гоголя также в первую очередь походят на произведения В. Набокова. Может быть, это вызвано тем, что сам Набоков исторически находится между Н. Гоголем и парой писателей: А. Волковым и К. Булычевым? Если эта гипотеза верна, то наша метод чувствителен к исторической эпохе, в которую создано произведение. Некоторое подтверждение тому мы находим в последней строке матрицы R: контрольное произведение В. Набокова похоже в первую очередь на пару А. Волкова и К. Булычева, и лишь затем - на Н. Гоголя. Если бы пара А. Волкова и К. Булычева разбивалась Н. Гоголем. то мы имели бы аргумент против нашей гипотезы. Впрочем, возможны другие интерпретации матрицы R, и автор нисколько не настаивает на выше приведенной.

Можно интересоваться зависимостью матрицы R от

а) числа и объема текстов обучающих выборок;

б) однородности по жанру;

в) однородности по тематике;

г) длины контрольного текста;

д) единицы анализа (на уровне букв, слов и предложений)

и многих других параметров. Ниже мы приводим информацию относительно пункта а). Вкратце вывод таков: методика работает удовлетворительно (то есть, на диагонали матрицы R в основном стоят 0) при объеме обучающей выборки свыше 100 тысяч символов ASCII, и объеме контрольного текста свыше 100 тысяч символов ASCII.

Вернемся к обсуждению таблицы 1. Поскольку в столбце c1 все числа равны 0, авторство всех контрольных произведений определено верно. Результат тем более неожиданный, что мы использовали столь примитивную информацию о тексте, как частоты употребления пар букв. На самом деле простейший компьютерный эксперимент (результаты которого здесь не приведены) показал, что при небольшом числе подозреваемых писателей (меньше шести) даже оценка (2.2), основанная всего лишь на подсчете частот употребления букв, дает очень хорошие результаты. В следующем разделе описан значительно более объемный статистический эксперимент. Из него становится ясно, что методика устойчиво работает на очень большом числе авторов.