Редактирование и кодирование данных

Тема 5. Анализ данных

Следующим этапом после сбора данных идет определение значимости информации по сырым данным. Поиск значимости принимает много форм. Однако предварительные аналитические этапы редактирования, кодирования и табулирования данных являются общими для большинства исследований.

Основная цель редактирования, состоит в установлении некоторых стандартов минимального качества сырых данных. Редактирование включает в себя просмотр и, если необходимо, исправление каждой анкеты или формы регистрации наблюдений. Просмотр и внесение исправлений часто выполняются в две стадии: полевое редактирование и централизованное офисное редактирование.

Полевое редактирование — это предварительное редактирование, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза пропуски и неточности данных.

Оно также полезно для контроля поведения персонала полевых сил и внесения ясности в любого рода недопонимание этими силами направлений их деятельности, методов, специфических вопросов и т.п. Например, в одном опросе компании Roper, проводившемся на Украине, полевое редактирование позволило обнаружить, что один работник оставлял анкеты респондентам вместо того, чтобы брать у них интервью, как было определено инструкцией. Наводящая подсказка приводила к возникновению разных путей хождения ответов по кругу.

В идеальных обстоятельствах полевое редактирование выполняется как можно скорее после того, как анкета или другая форма сбора данных заполнена. В этом случае проблемы могут быть устранены прежде, чем проводивший сбор информации штат будет расформирован, и пока конкретные контакты, явившиеся источником затруднения, еще свежи в памяти проводивших опрос или наблюдение людей. Полевое редактирование обычно выполняется руководителем полевых работ.

Централизованное офисное редактирование - точная всеобъемлющая проверка и коррекция заполненных форм сбора данных, включая принятие решения о том, что с этими данными делать.

Чтобы обеспечить логическую последовательность обработки материалов, лучше всего предоставить все носители собранных данных одному человеку. Если эту работу приходится делить по соображениям ее объема и имеющегося времени, подразделы должны определяться по частям анкеты, а не по респондентам. То есть, один редактор должен редактировать часть «А» всех анкет, а другой — часть «В».

В отличие от полевого, централизованное офисное редактирование в меньшей степени зависит от последующих процедур, и в большей — от степени полноты данных. При анализе необходимо решить, каким образом будут обрабатываться носители собранных данных, содержащие неполные ответы, явно неправильные ответы и ответы, которые отражают утрату интереса.

Исследования, в которых все вернувшиеся анкеты заполнены целиком, довольно редки. В некоторых окажутся пропущенными целые разделы. Другие будут отражать оставленными без ответа отдельные позиции. Решение о том, каким образом обрабатывать эти неполные анкеты, зависит от серьезности пропусков. Анкеты, в которых пропущены целые разделы, не должны отбрасываться автоматически. Может, например, быть, что пропущенный раздел относится к влиянию супруга на приобретение какой-то серьезной вещи длительного пользования, тогда как респондент в браке не состоит. Несмотря на незаполненный раздел, такой тип полученного ответа определенно полезен. Если нет никаких позитивных соображений относительно большого количества вопросов, оставшихся без ответов, весь подобный материал будет, отброшен, а это увеличивает долю оставшихся без ответов анкет по исследованию в целом. Анкеты, содержащие только изолированные безответные позиции, должны оставляться, а после кодирования они могут быть подвергнуты определенной очистке данных, о которой будем говорить позже.

Тщательное редактирование анкеты иногда показывает, что ответ на какой-то вопрос очевидно неправилен. Например, респондентам сначала может задаваться вопрос о типе магазина, в котором они приобретали фотоаппараты, а затем их просят назвать магазин. Если какое-то лицо на первый вопрос отвечает «в универмаге», а затем дает название магазина, торгующего по сниженным ценам, один из ответов неверен. Возможно, редактор сумеет определить, какой из двух ответов правильный, воспользовавшись другой информацией из той же анкеты.

В процессе анализа может потребоваться какая-то политика в подходе к обработке вопросов с точки зрения их правильности, когда возникают подобные несоответствия или неточности иного типа. Принятая политика должна отражать цель исследования. Например, директору Восточноевропейского маркетинга (Рерsi Соlа 1пternаtiопа1) были сданы результаты проводившегося в Венгрии опроса, в которых говорилось, что аптеки американского образца являются точками сбыта безалкогольных напитков. Директор не принял эту информацию, т.к. прекрасно знал, что в Венгрии нет американских аптек, и что эта информация была привнесена из структуры анкеты, разработанной на Западе.

При анализе необходимо стремится не пропустить заполненные анкеты, которые неудачны с точки зрения пробуждения интереса респондента. Свидетельства отсутствия интереса могут быть и очевидными, и очень трудно распознаваемыми. Например, анкету субъекта, который проставил оценку «5» своего отношения к чему-то по пятибалльной шкале каждой из 40 позиций анкеты, даже не обратив внимания, что некоторые позиции выражали негативное, а некоторые позитивное отношение. Ясно, что этот субъект не принял исследование всерьез, и редактор, вероятно, должен отбросить такой ответ. Проницательный редактор может ухитриться разглядеть и более трудно различимые указания на отсутствие интереса, такие как отметки, выходящие за пределы предусмотренных для них рамок, помарки, словоизлияния на анкете и т.п. Можно не отбрасывать такие ответы, но кодировать их необходимо таким образом, чтобы в последующем можно было провести отдельные табуляции для сомнительных носителей собранных данных и явно добротных анкет. Затем эти две группы можно сравнить, чтобы посмотреть, насколько значимо отсутствие интереса сказалось на результатах.

Кодирование – технический прием, с помощью которого данные распределяются по категориям. Прием связан со спецификацией альтернативных категорий или классов, в которые должны помещаться ответы, а самим классам должны назначаться кодовые номера. Т.е. посредством кодирования сырые данные превращаются в символы — обычно цифровые, которые можно табулировать и подсчитывать.

Первый этап кодирования заключается в специфицировании категорий или классов, к которым будут относиться ответы. Не существует какого-то идеального числа категорий. Скорее, это число будет зависеть от исследуемой проблемы и специальных позиций анкеты, используемых для генерирования информации. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически попадал в одну, и только одну, категорию. По ряду вопросов могут использоваться и множественные ответы. Например, на вопрос: «Для каких целей вам служит йогурт?» ответы могут быть: «в качестве десерта», «как легкая вечерняя закуска», «как возможность перекусить после полудня» и т.п. С другой стороны, если вопрос сосредоточен на возрасте лица, то приемлема, конечно, только одна категория возраста, и код должен четко указывать, о какой категории идет речь.

Кодирование закрытых вопросов и большинства средств балльной оценки не сложно; потому что оно устанавливается при конструировании самой анкеты.

Кодирование открытых вопросов более сложно и более дорогое, чем кодирование закрытых вопросов, т.к. приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Например, международные исследования могут создавать особые проблемы кодирования, поскольку разные понятия могут означать разные вещи. Например, консерватором на территории бывшего Советского Союза считается тот, кто желает оставаться верным «старому коммунизму» или вернуться в него, тогда как в странах Запада люди тех же взглядов видятся принадлежащими к самому левому крылу. В свою очередь, либеральными русскими являются те, кто желает введения в экономику и политику рыночных перспектив, которые, как правило, поддерживаются на Западе консерваторами.

Если анкет слишком много, и необходимо использовать для кодирования анкет нескольких кодировщиков, дополнительной проблемой может стать возникновение несоответствия в самом кодировании. Поэтому для получения логической последовательности обработки данных, эту работу необходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками.

Второй этап кодирования касается назначения кодовых номеров классов. Например, мужской пол может обозначаться буквой М, а женский — буквой Ж. Как альтернативный вариант, эти классы могут обозначаться 1 — мужчина и 2 — женщина. Принято, для обозначения классов использовать цифры, а не буквы. На этой стадии также лучше использовать цифры в том виде, как они зафиксировались в форме сбора данных, а не раскладывать их на более мелкие категории. Например, если имеются данные о фактическом возрасте людей, не рекомендуется кодировать возраст как 1 = до 20 лет, 2 = 20-29 лет, 3 = 30-39 лет и т.д. Это привело бы к ненужной потере информации в ее исходном измерении, а если возникнет необходимость градации, это можно будет сделать с той же легкостью на более поздней стадии анализа.

Когда для анализа данных предполагается использовать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину, поэтому полезно обеспечить наглядность ввода посредством многоколонной записи. Кроме того, рекомендуется следовать установившимся традициям кодирования данных, т.е. располагать только один символ в каждой колонке. Когда вопрос допускает множество ответов, допускать отдельные колонки для кодирования каждого варианта ответа. Так, в примере с йогуртом необходимо предусмотреть отдельные колонки для тех, кто употребляет этот продукт в качестве десерта, тех, кому он служит вечерней легкой закуской, и т.д.

Использовать только числовые коды, а не буквы алфавита или специальные символы вроде @ или пробел. Для большинства компьютерных программ при обработке статистических данных манипулирование чем-то иным, чем цифры, сопряжено с трудностями.

Необходимо использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для полного охвата всех ее возможных значений. Так, если переменная такова, что десяти кодов от 0 до 9 для охвата категории недостаточно, необходимо использовать две колонки, обеспечивающие 100 кодов от 00 до 99. Кроме того, любому полю должна назначаться не более чем одна переменная.

Рекомендуется применять стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны кодироваться цифрой 8, «нет ответов» — цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет информации» используется один и тот же код.

Желательно кодировать в каждой записи идентификационный номер респондента. Как правило, необходимости идентифицировать в этом номере имя респондента, нет. Этот код просто связывает анкету с кодируемыми данными. Такая информация часто полезна на этапе очистки данных. Если анкета координируется не с одной записью, то в каждой записи кодируются идентификационный номер респондента и порядковый номер. Колонка 10 первой записи может указывать, как респондент ответил на вопрос 2, а в колонке 10 второй записи могут содержаться данные о том, мужского или женского пола эта персона.

Завершающий этап процесса кодирования состоит в подготовке книги кодов, которая содержит общие инструкции, указывающие, каким образом была закодирована каждая позиция данных. В ней перечисляются коды каждой переменной и категории, включенные в каждый код. Далее в ней указывается, где в компьютерной записи располагается переменная, и каким образом эта переменная читается — например, с десятичной точкой или как целое число. Последняя информация обеспечивается установлением формата.