Контекстный анализ

НОРМЫ

УСЛОВНЫЕ ЧАСТОТЫ

Простые частоты являются не самой подходящей оценкой текстов. Проблемы с ними могут возникнуть в том случае, если мы захотим сравнить разные по длине тексты. Например, пусть в некотором тексте t1 длиной в 1000 слов категория НЕГАТИВ встречается с частотой 20, а в тексте t2 длиной в 10000 слов — с частотой 100. Является ли пятикратная разница частот доста­точным основанием для утверждения, что текст t2 окрашен бо­лее негативно, чем текст t1? Очевидно, что нет. Для вынесения такого утверждения необходимо сравнивать не простые часто­ты, а условные, т. е. доли, которые составляет категория НЕГА­ТИВ в первом и втором тексте.

Условную частоту характеристики c в тексте t обозначим посредством pr(c,t). Вычисляется она по формуле:

pr(c,t) = f(c,t) / L(t), где L(t) – длина текста t.

В зависимости от того, что принято за элементы содержа­ния, в качестве длины текста может быть взято общее количе­ство в нем слов, предложений, абзацев и т. д. Если характерис­тика — это отдельное слово или категория слов, то и в качестве длины текста берется количество слов в нем.

В нашем примере pr(НЕГАТИВ, t1) = 20 / 1000 = 0,02 больше, чем pr(НЕГАТИВ, t2) = 100 / 10000 = 0,01. То есть более негативно ок­рашенным является не второй, а первый текст.

Иногда вместо условных частот удобнее использовать оцен­ку процентного содержания. Для этого просто умножают ус­ловную частоту на 100 и тем самым получают процентное со­держание.

Переход от использования простых частот к условным зна­чительно расширяет сферу применимости методов контент-ана­лиза. Если раньше все наши примеры имели дело с текстами одинаковой длины, то теперь это ограничение снято. Теперь мы можем сравнивать разные по длине статьи, разные по объему издания и пр.

До сих пор для того, чтобы делать какие-то выводы, нам тре­бовалось оценить как минимум два текста. Затем эти оценки либо сопоставлялись между собой, либо соотносились с некоторыми событиями в реальном мире и на основании этого дела­лись определенные выводы.

Представим, что перед нами поставлена задача классифика­ции текстов по медицинской и немедицинской тематике. При­чем требуется, чтобы это делал не человек, а компьютер. Реше­ние довольно очевидно. Текст должен быть отнесен к медицин­ским в том случае, если частота встречаемости медицинских терминов в нем существенно выше, чем в обычной речи. Для этого следует сформировать категорию медицинских терминов Km и сопоставить ей условную частоту встречаемости в обыч­ной речи pr(Km, речь), которую назовем нормой для категории Km. При анализе конкретного текста t подсчитывается услов­ная частота pr(Km, t). Если она существенно больше нормы pr(Km, речь), то текст t относят к медицинской тематике. Анало­гичная процедура может быть применена для дальнейшей клас­сификации текстов по различным разделам медицины. Доста­точно лишь сформировать соответствующие категории и сопо­ставить им нормы, но уже на основании не обычной речи, а анализа представительной выборки различных медицинских текстов. Задача по формированию норм облегчается тем, что в настоящее время существует довольно много частотных слова­рей, относящихся к различным сферам человеческой деятель­ности, и нормы можно извлекать из них. Нормы можно вычис­лять и для отдельных людей. Они могут оказаться весьма полез­ными, например, для определения душевного состояния чело­века. Так, превышение в речи относительно личной нормы час­тоты категории НЕГАТИВ может свидетельствовать о том, что человек находится в дурном настроении.

Важно подчеркнуть, что понятие нормы всегда относитель­но. Для сугубо гражданского человека норма частоты употреб­ления агрессивно окрашенной лексики одна, для профессио­нального военного — другая. Нормы могут меняться не только от одной профессионально определенной группы людей к дру­гой, но и со временем. Причиной тому служат исторические изменения в жизни общества, отмирание старых идей и появ­ление новых, заимствования из других языков, влияние на лек­сический состав языка таких факторов, как общественная мо­раль и пр.

Более строго понятие нормы можно определить следующим образом. Имеется некоторое множество текстов T, которые объединены вместе по определенному признаку. Нас интересует норма характеристики с для T. Так как множество текстов Т может быть слишком велико или недоступно целиком, то из него берется представительная конечная выборка и уже для нее вычисляется условная частота pr(c, V). Это и будет принято в качестве нормы характеристики с для Т, которую мы обозна­чим посредством nr(с, Т). Норма характеристики с для множе­ства текстов Т — это ожидаемая условная частота ее встречае­мости в произвольном тексте, принадлежащем данному множе­ству. Для представления того, как сильно отличается от ожида­емой частота встречаемости характеристики с в конкретном тексте , используются следующие оценки:

pn(c, t, T) = pr(c, t) / nr(c, T) — во сколько раз отличается pr(c, t) от nr(с, Т);

pd(c, t, T) = [[pr(c, t) — nr(c, T)] / nr(c, T)] * 100 — на сколько процентов отличается pr(c, t) от nr(с, Т).

Аналитика в первую очередь интересуют те тексты, для ко­торых оценка pn(c, t, T) существенно отличается от 1 или же оцен­ка pd(c, t, T) существенно отличается от 0. При этом дополни­тельного уточнения требует термин существенно отличаться. На помощь приходит аппарат математической статистики. Обычно считают, что характеристика с имеет в тексте t бино­миальное распределение с вероятностью nr(с, Т). Пусть реально в тексте t характеристика с встретилась pr(c, t) * L(t) раз, в то вре­мя как ожидалось nr(c, T) * L(t). Исходя из свойств биномиально­го распределения легко подсчитать, насколько мала вероятность того, что для произвольного текста ti абсолютная величина abs(pr(c, ti) — nr(c, T)) * L(ti) abs(pr(c, t) — nr(c, T)) * L(t). Если вычис­ленная таким образом вероятность не превышает порога 0,05 (или 0,01), считается, что отклонение реальной частоты от ожи­даемой существенно, т. е. не является случайным.

На практике гораздо чаще используют оценку, вычисляемую по формуле:

z(c, t, T) = [pr(c, t) - nr(c, T)] / SQRT[pr(c, t) * (l - pr(c, t)) / L(t)]

Это разница двух условных частот, нормированная по стан­дартному отклонению. Ее имеет смысл использовать лишь в том случае, если pr(c, t) * (l—pr(c, t)) * L(t) 25. Эта оценка хорошо изве­стна психологам и социологам. Именно с ее помощью обосно­вываются методы вычисления баллов многих психологических тестов. Если abs(z(c, t, T)) l,96, то мы сразу можем сказать, что вероятность данного события не превышает 0,05. Если же abc(z(c, t, T)) 2,58, то вероятность этого события еще меньше и не превышает 0,01. Из формулы видно, что данная оценка пря­мо пропорциональна корню квадратному из длины текста t. Именно поэтому ее можно использовать для определения того, что данное событие не является случайным, но не для оценки того, насколько велико отклонение реальной частоты от ожи­даемой. К сожалению, многие психологи и социологи не разли­чают этого и потому их выводы очень далеки от научности. В применении к методам психологического тестирования заме­чательную критику по этому вопросу дал А.Г. Шмелев (1).

Основная идея контекстного анализа заключается в том, что анализу подвергается не весь текст, а лишь некоторая выборка из него, являющаяся контекстом употребления характеристи­ки с. Есть много способов задать контекст. Например, для слова (характеристики) w в качестве его контекста мы можем взять все предложения (абзацы, статьи, книги), в которых оно встре­чается. Вместо предложений мы можем считать контекстом по одному или более слов слева и справа от каждого вхождения w в текст.

Если текст t рассматривать как множество предложений, а предложение s рассматривать как множество слов, то контекст категории C в тексте t можно определить как

ctx(C, t) = {s - {w} | w С, ws, st}.

Выделенный контекст может анализироваться как самосто­ятельно, так и относительно основного текста. Во втором слу­чае основной текст служит источником норм, которые затем используются при анализе контекста, т.е. для произвольной категории K мы интересуемся условной частотой pr(K, ctx(C, t)) и сравниваем ее с нормой nr(K, t), вычисляемой как: pr(K,t — {С}), где t — {C} = {s - {w} | wC, st}.

Дополнительно к этому мы можем выделить множество слов col(C, t) = {w | pr(w, ctx(C, t)) существенно больше pr(w, t - {С})}.

В англоязычной литературе по контент-анализу такое мно­жество называется collocation категории С. Отношение суще­ственно больше валидизируется с помощью аппарата матема­тической статистики по аналогии с тем, как это описывалось выше. Множество col(C, t) содержит много полезной информации о категории С. Например, col({змея}, речь) будет включать в себя такие слова, как яд, кусать, ползать, пресмыкающееся,..., а в col({Путин}, СМИ) войдут слова Владимир, президент, Кремль, Россия, …


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: