double arrow

Редактирование и кодирование данных

Тема 5. Анализ данных

Следующим этапом после сбора данных идет определение значимости информации по сырым данным. Поиск значимости принимает много форм. Однако предварительные аналитические этапы редактирования, кодирования и табулирования данных являются общими для большинства исследований.

Основная цель редактирования, состоит в установ­лении некоторых стандартов минимального качества сырых данных. Редактирование включает в себя про­смотр и, если необходимо, исправление каждой анке­ты или формы регистрации наблюдений. Просмотр и внесение исправлений часто выполняются в две стадии: полевое редактирование и централизованное офисное редактирование.

Полевое редактирование — это предварительное редактирование, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза про­пуски и неточности данных.

Оно также полезно для контроля поведения персонала полевых сил и внесе­ния ясности в любого рода недопонимание этими сила­ми направлений их деятельности, методов, специфи­ческих вопросов и т.п. Например, в одном опросе компании Roper, проводившемся на Украине, полевое редактирование позволило обнаружить, что один ра­ботник оставлял анкеты респондентам вместо того, чтобы брать у них интервью, как было определено ин­струкцией. Наводящая подсказка приводила к возникновению разных путей хождения ответов по кругу.

В идеальных обстоятельствах полевое редактирова­ние выполняется как можно скорее после того, как анкета или другая форма сбора данных заполнена. В этом случае проблемы могут быть устранены прежде, чем проводивший сбор информации штат будет рас­формирован, и пока конкретные контакты, явившиеся источником затруднения, еще свежи в памяти прово­дивших опрос или наблюдение людей. Полевое редак­тирование обычно выполняется руководителем поле­вых работ.

Централизованное офисное редактирование - точная всеобъемлющая проверка и коррекция заполнен­ных форм сбора данных, включая принятие решения о том, что с этими данными делать.

Чтобы обес­печить логическую последовательность обработки ма­териалов, лучше всего предоставить все носители собранных данных одному человеку. Если эту работу приходится делить по соображениям ее объема и име­ющегося времени, подразделы должны определяться по частям анкеты, а не по респондентам. То есть, один редактор должен редактировать часть «А» всех анкет, а другой — часть «В».

В отличие от полевого, централизованное офисное редактирование в меньшей степени зависит от после­дующих процедур, и в большей — от степени полноты данных. При анализе необходимо решить, каким образом бу­дут обрабатываться носители собранных данных, со­держащие неполные ответы, явно неправильные отве­ты и ответы, которые отражают утрату интереса.

Исследования, в которых все вернувшиеся анкеты заполнены целиком, довольно редки. В некоторых окажутся пропущенными целые разделы. Другие будут отра­жать оставленными без ответа отдельные позиции. Ре­шение о том, каким образом обрабатывать эти неполные анкеты, зависит от серьезности пропус­ков. Анкеты, в которых пропущены целые разделы, не должны отбрасы­ваться автоматически. Может, например, быть, что пропущенный раздел относится к влиянию супруга на приобретение какой-то серьезной вещи длительного пользования, тогда как респондент в браке не состоит. Несмотря на незаполненный раздел, такой тип полу­ченного ответа определенно полезен. Если нет ника­ких позитивных соображений относительно большого количества вопросов, оставшихся без ответов, весь подобный материал будет, отброшен, а это увеличивает долю оставшихся без ответов анкет по исследованию в целом. Анкеты, содержащие только изолированные безответные позиции, должны остав­ляться, а после кодирования они могут быть под­вергнуты определенной очистке данных, о которой будем говорить позже.

Тщательное редактирование анкеты иногда показы­вает, что ответ на какой-то вопрос очевидно неправилен. Например, респондентам сначала может задавать­ся вопрос о типе магазина, в котором они приобретали фотоаппараты, а затем их просят назвать магазин. Если какое-то лицо на первый вопрос отвечает «в уни­вермаге», а затем дает название магазина, торгующего по сниженным ценам, один из ответов неверен. Возможно, редактор сумеет определить, какой из двух ответов правильный, воспользовавшись другой инфор­мацией из той же анкеты.

В процессе анализа может потребоваться какая-то полити­ка в подходе к обработке вопросов с точки зрения их правильности, когда возникают подобные несоответ­ствия или неточности иного типа. Принятая политика должна отражать цель исследования. Например, директору Восточноевропейского марке­тинга (Рерsi Соlа 1пternаtiопа1) были сданы результаты проводившегося в Венгрии опроса, в кото­рых говорилось, что аптеки американского образца являются точками сбыта безалкогольных напитков. Директор не принял эту информацию, т.к. прекрасно знал, что в Венгрии нет американских ап­тек, и что эта информация была привнесена из струк­туры анкеты, разработанной на Западе.

При анализе необходимо стремит­ся не пропустить заполненные анкеты, которые не­удачны с точки зрения пробуждения интереса респон­дента. Свидетельства отсутствия интереса могут быть и очевидными, и очень трудно распознаваемыми. Например, анкету субъекта, который проставил оценку «5» своего отношения к чему-то по пяти­балльной шкале каждой из 40 позиций анкеты, даже не обратив внимания, что некоторые позиции выражали негативное, а некоторые позитивное отношение. Ясно, что этот субъект не принял исследование всерьез, и редактор, вероятно, должен отбросить та­кой ответ. Проницательный редактор может ухитрить­ся разглядеть и более трудно различимые указания на отсутствие интереса, такие как отметки, выходящие за пределы предусмотренных для них рамок, помарки, словоизлияния на анкете и т.п. Можно не отбрасывать такие ответы, но кодировать их не­обходимо таким образом, чтобы в последующем мож­но было провести отдельные табуляции для сомнительных носителей собранных данных и явно добротных анкет. Затем эти две группы можно срав­нить, чтобы посмотреть, насколько значимо отсут­ствие интереса сказалось на результатах.

Кодирование – технический прием, с помо­щью которого данные распределяются по категориям. Прием связан со спецификацией альтернативных категорий или классов, в которые должны помещаться ответы, а самим классам должны назначаться кодовые номера. Т.е. посредством кодирования сырые данные превращают­ся в символы — обычно цифровые, которые можно табулировать и подсчитывать.

Первый этап кодирования заключается в специфи­цировании категорий или классов, к которым будут относиться ответы. Не существует какого-то идеального числа категорий. Скорее, это число будет зави­сеть от исследуемой проблемы и специальных позиций анкеты, используемых для генерирования информа­ции. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически по­падал в одну, и только одну, категорию. По ряду воп­росов могут использоваться и множественные ответы. Напри­мер, на вопрос: «Для каких целей вам служит йогурт?» ответы могут быть: «в качестве десерта», «как легкая вечерняя закуска», «как возможность перекусить пос­ле полудня» и т.п. С другой стороны, если вопрос со­средоточен на возрасте лица, то приемлема, конечно, только одна категория возраста, и код должен четко указывать, о какой категории идет речь.

Кодирование закрытых вопросов и большинства средств балльной оценки не сложно; потому что оно устанавливается при конструировании самой анкеты.

Кодирование открытых вопросов более сложно и более доро­гое, чем кодирование закрытых вопросов, т.к. приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Например, меж­дународные исследования могут создавать особые про­блемы кодирования, поскольку разные понятия могут означать разные вещи. Например, консерватором на территории бывшего Советского Союза считается тот, кто желает оставаться верным «старому коммунизму» или вернуться в него, тогда как в странах Запада люди тех же взглядов видятся принадлежащими к самому левому крылу. В свою очередь, либеральными русски­ми являются те, кто желает введения в экономику и политику рыночных перспектив, которые, как прави­ло, поддерживаются на Западе консерваторами.

Если анкет слишком много, и необходимо использовать для кодирования анкет нескольких кодировщиков, дополнительной пробле­мой может стать возникновение несоответствия в са­мом кодировании. Поэтому для получения логической последовательности обработки данных, эту работу не­обходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками.

Второй этап кодирования касается назначения ко­довых номеров классов. Например, мужской пол мо­жет обозначаться буквой М, а женский — буквой Ж. Как альтернативный вариант, эти классы могут обо­значаться 1 — мужчина и 2 — женщина. Принято, для обозначения классов использовать цифры, а не буквы. На этой стадии также лучше использо­вать цифры в том виде, как они зафиксировались в фор­ме сбора данных, а не раскладывать их на более мелкие категории. Например, если имеются данные о факти­ческом возрасте людей, не рекомендуется кодировать возраст как 1 = до 20 лет, 2 = 20-29 лет, 3 = 30-39 лет и т.д. Это привело бы к ненужной потере информации в ее исходном измерении, а если возникнет необходи­мость градации, это можно будет сделать с той же лег­костью на более поздней стадии анализа.

Когда для анализа данных предполагается использо­вать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину, поэтому полезно обеспечить нагляд­ность ввода посредством многоколонной записи. Кро­ме того, рекомендуется следовать установившимся традициям кодирования данных, т.е. располагать только один символ в каждой колонке. Когда вопрос допускает множество ответов, допускать отдельные колонки для кодирования каждого вариан­та ответа. Так, в примере с йогуртом необходимо предусмотреть отдельные колонки для тех, кто употребляет этот продукт в качестве десерта, тех, кому он служит вечерней легкой закуской, и т.д.

Использовать только числовые коды, а не буквы ал­фавита или специальные символы вроде @ или пробел. Для большинства компьютерных программ при обра­ботке статистических данных манипулирование чем-то иным, чем цифры, сопряжено с трудностями.

Необходимо использовать ровно столько колонок поля, назна­чаемого для переменной, сколько необходимо для пол­ного охвата всех ее возможных значений. Так, если переменная такова, что десяти кодов от 0 до 9 для охва­та категории недостаточно, необходимо использовать две колонки, обеспечивающие 100 кодов от 00 до 99. Кроме того, любому полю должна назначаться не бо­лее чем одна переменная.

Рекомендуется применять стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны коди­роваться цифрой 8, «нет ответов» — цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет инфор­мации» используется один и тот же код.

Желательно кодировать в каждой записи идентификационный номер респондента. Как правило, необходимости идентифицировать в этом номере имя рес­пондента, нет. Этот код просто связывает анкету с кодиру­емыми данными. Такая информация часто полезна на этапе очистки данных. Если анкета координируется не с одной записью, то в каж­дой записи кодируются идентификационный номер респондента и порядковый номер. Колонка 10 первой записи может указывать, как респондент ответил на вопрос 2, а в колонке 10 второй записи могут содер­жаться данные о том, мужского или женского пола эта персона.

Завершающий этап процесса кодирования состоит в подготовке книги кодов, которая содержит общие ин­струкции, указывающие, каким образом была закоди­рована каждая позиция данных. В ней перечисляются коды каждой переменной и категории, включенные в каждый код. Далее в ней указывается, где в компью­терной записи располагается переменная, и каким об­разом эта переменная читается — например, с десятич­ной точкой или как целое число. Последняя информация обеспечивается установлением формата.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: