Глава II. Метод контент-анализа: история создания и сущность

Контент-анализ – это методика выявления частоты появления в тексте определенных, интересующих исследователя характеристик, которая позволяет ему делать некоторые выводы относительно намерений создателя этого текста или возможных реакций адресата. Особенность КА состоит в том, что он изучает документы в их социальном контексте [9, с.13].

Появление КА было вызвано потребностью в создании объективных методов анализа текстов, результаты которого не зависели бы от таких субъективных факторов, как личность исследователя или время проведения исследования. Изначально КА задумывался как строгий метод оценки текстов [9, с.13].

Метод КА вначале использовался вручную, что было достаточно трудоемким процессом. Так, в области психологии существует методика, благодаря которой по тексту от 80 до 150 слов можно получить полный психологический портрет автора. Анализируются в основном грамматические характеристики. Временные затраты на осуществление метода – от 4 до 6 часов, плюс следует учитывать невнимательность автора и другие субъективные факторы [9, с.14].

Проблемы трудоемкости и неоднозначности методики были сняты с разработкой компьютерных методов КА. Зависящим от исследователя остается в основном разработка критериев [9, с.14].

К компьютерному контент-анализу также представляется ряд требований. Во-первых, оценки должны иметь хорошее математическое обоснование. Во-вторых, они должны быть достаточно просты, что является необходимым условием их применения в гуманитарных исследованиях. Кроме того, они должны иметь удобное наглядное представление не только в виде таблиц и чисел, но также в виде графиков и диаграмм [9, с.14].

Определенные требования предъявляются и в отношении объектов КА. Документы, подвергаемые КА должны соответствовать принципам формализации и статистической значимости, т.е. чтобы исследуемое содержание позволяло задавать однозначное правило для надежной фиксации нужных характеристик и чтобы интересующие исследователя объекты встречались с определенной частотой [7].

Главное отличие КА от методов квантитативной лингвистики и статистического изучения языка состоит в том, что полученные характеристики, к которым применяется процедура подсчета (отдельные слова и словосочетания) являются не целью, а скорее средством для получения результатов более высокого порядка [7].

Т.о. базовой единицей КА являются оценки частот (встречаемость того или иного слова, словосочетания) [9, с.15]. Отдельные слова объединяются в категории, образованные по какому-то признаку. Т.о. в одну категорию попадают слова-синонимы. К примеру, категория позитивных эмоций будет включать такие единицы текста, как бодрый, добрый, нежный, теплый, шутка и т.д. [9, с.15].

Категории КА должны быть исчерпывающими, взаимоисключающими, надежными (не вызывать разногласий у различных исследователей) и уместными (соответствовать поставленной задаче) [7]. При выборе категорий для КА следует избегать слишком многочисленных и дробных категорий, и наоборот, что может привести к слишком поверхностному анализу [7].

Частота упоминания в тексте некоторой категории подсчитывается как сумма частот входящих в нее слов [9, с.15]. Логической, операцией, лежащей в основе создания категории, является определение через абстракцию. Категория задается либо посредством заранее фиксированного списка слов либо операционно, например, посредством распознания грамматических признаков – к примеру, глаголов прошедшего времени [9, с.16].

Простые частоты не позволяют нам провести адекватное сравнение двух текстов, т.к. разные по количеству содержащихся знаков тексты могут оказаться несравнимыми: в тексте, который содержит больше знаков, заданная характеристика может встречаться большее число раз, чем в меньшем по объему тексте. В таких случаях удобнее применять не простые, а условные частоты, т.е. доли, которые составляет заданная категория в том или ином тексте [9, с.17].

Длина текста задается в зависимости от подсчитываемой характеристики. В зависимости от того, что принимается за элементы содержания, в качестве длины текста может быть взято общее количество в нем слов, предложений, абзацев и т.д. [9, с.17].

Иногда вместо условных частот удобнее использовать оценку процентного содержания, для этого условную частоту умножают на 100 [9, с.17].

Подробнее остановимся на сравнении текстов разных жанров. Для таких текстов должны применяться дополнительные показатели нормы – ожидаемой условной частоты встречаемости характеристики в произвольном тексте, принадлежащем данному множеству [9, с.19]. К примеру, если мы хотим сравнить научный текст с научно-популярным, то выработка таких показателей будет обязательна.

Т.о. процедура КА включает следующие этапы: выбор необходимых источников, которые должны определяться параметрами масштабов исследования и его задачами, формулировка категорий, выбор единицы анализа – лингвистической единицы речи или элемента содержания, разработку таблиц контент-анализа, разработку инструкции кодировки [7].

В настоящее время применение ККА доступно практически каждому исследователю и не требует высококвалифицированной подготовки в области ИТ. Для осуществления нашего исследования нами выбрана система ВААЛ, речь о которой пойдет в следующей главе.