Количественная и качественная методология. Противоположность «качественной» и «количественной» форм знания, geisteswissenschaftlich (науки о духе) и naturwissenschaftlich (науки о природе), «гуманистического» и «сциентистского» подходов характерна сегодня для большинства социальных наук в США. В таких областях, как социология и социальная психология, многие из наших самых талантливых и преданных науке исследователей все больше склоняются к качественному, гуманистическому подходу. В политической науке также существует разделение по этому признаку. Кажется, только экономика и география относительно свободны от этого разделения.
Этот раскол проник, конечно, и в исследования по оценке эффективности, приняв здесь форму спора по поводу законности количественно-экспериментальной парадигмы при оценивании программ (см., например, Weiss, Rein [96, 97]; Guttentag [48, 49, 50]; Campbell [17, 19]). Разумеется, спор по данному вопросу ведется в несколько иных терминах. Критики, занимающие позицию, которую я называю гуманистической, довольно часто сведущи в количественных экспериментальных методах. Их специфические критические замечания нередко хорошо обоснованы именно с позиций экспериментатора: эксперименты, связанные с использованием некоей частной процедуры в каких-то частных условиях, совершенно неопределенны в плане установления того, что чем вызвано; системам измерения свойственна ничем не обоснованная жесткость, ограничивающая регистрируемые выходные данные заранее ожидавшимися параметрами; экспериментальная программа, сосредоточенная на общем эффекте некоего комплексного воздействия, часто игнорирует сам процесс, поэтому знание таких эффектов имеет сомнительное значение для повторного осуществления или улучшения программы; программы широкого масштаба часто бывают безнадежно неопределенны во всем, что касается целей и релевантных индикаторов; изменения программы воздействия в ходе какого-нибудь улучшающего эксперимента, хотя и имеют решающее значение в практическом отношении, делают невозможным истолкование соотношения входа
|
|
и выхода; осуществление социальных программ часто обеспечивается несостоятельными с точки зрения экспериментальных моделей способами; даже в тщательно контролируемых ситуациях экспериментирование является делом крайне утомительным и неопределенным; экспериментирование — слишком медленный процесс, чтобы быть полезным в политическом плане и т. д. Все эти соображения соответствуют истине и подчас достаточно справедливы для того, чтобы побудить к энергичному поиску альтернатив. Однако предлагавшиеся до сих пор альтернативы качественного знания (см., например, Weiss, Rein, [96, 97]; Guttentag [48, 49, 50]) для меня неубедительны.
|
|
Я полагаю, что натуралистическое наблюдение за событиями является, в сущности, неопределенным основанием для каузальных выводов, с помощью каких бы средств — качественных или количественных — такое наблюдение ни проводилось, ибо имеет место смешивание фактора отбора и воздействий. Всякая попытка уменьшить неопределенность будет приводить к тому, что условия будут становиться более «экспериментальными». «Эксперименты» — это фактически и есть особый тип специально разработанных условий наблюдения, оптимальный для каузального вывода. Проблемы вывода, связанные с оцениванием программ, присущи самой природе программ, осуществляемых в ходе социальных процессов. Экспериментальные планы не являются источником этих проблем и фактически облегчают их решение, хотя часто лишь в небольшой степени.
В таких возражениях часто содержится неявный протест против подмены качественного знания косвенными и гипотетическими процессами научного познания. Но хотя я вынужден отвергнуть этот аспект гуманистической критики, существуют иные аспекты, побуждающие к такой критике, к которым я могу всей душой присоединиться. Эти критические положения можно обозначить как «пренебрежение релевантными качественными контекстуальными данными» или «чрезмерная зависимость от небольшого числа квантифицированных абстракций, ведущая к игнорированию противоречащих им и дополняющих их качественных данных».
Под влиянием миссионеров из лагеря логического позитивизма представители количественной социальной
науки слишком часто исходят из предположения, что в истинной науке качественное обыденное знание заменяется знанием количественным. В действительности дело обстоит совсем иначе. Скорее, наука зависит от обыденного качественного знания, даже если она в лучшем случае и выходит за его пределы.
Чтобы подвергнуть сомнению обыденное понимание какой-то частности и внести в него поправки, следует доверять обыденному пониманию в целом.
С этим связано также подчеркивание в эпистемологии качественного распознавания целостного образа как исходного по отношению к распознаванию атомарных частиц, могущих быть квантифицированными, в противоположность все еще широко распространенной логической атомистической интуиции (Campbell [13]). Такая эпистемология скорее фаллибилист 1,чем провидец: она делает акцент на предположении о том, что при подобном распознавании образов допускаются ошибки, а не на признании способности восприятия служить надежной основой достоверности. Но она также видит в этом подверженном ошибкам, интуитивном, гипотетическом обыденном восприятии единственный возможный путь. Дело не в том, что перцептивные данные выше всякой критики (Campbell [15]), но они доступны критике лишь благодаря доверию к другим многочисленным перцептивным данным того же гностического уровня.
Если мы применим такую эпистемологию для оценки эффективности программ, это сразу узаконит «описательную» часть большинства отчетов и подскажет, что такая деятельность получает формальное признание в планировании и проведении исследований. Без этих материалов исследования по оценке эффективности недоступны интерпретации и в большинстве своем интерпретировались бы лучше, если бы этих материалов было больше. Тот факт, что содержание их субъективно и грешит ошибками, должен привести нас к более тщательному подбору лиц, привлекаемых для регистрации событий, и к подготовке формализованных процедур, с помощью которых все заинтересованные участ-
______________________________________________________________________________
|
|
1 Фаллибилизм (от лат. fallere) — воззрение, основывающееся на утверждении подверженности познания разного рода ошибкам. — Прим. перев.
ники могли бы внести дополнения и исправления в официальную версию. Следует предусмотреть использование профессионально подготовленных историков, антропологов и специалистов в области качественной социологии. Без описательной части не обходится ни один заключительный отчет, и для ее подготовки должны использоваться самые совершенные качественные методы.
Следует также осознать, что как участники разработки и внедрения планируемых изменений, так и наблюдатели на протяжении веков не прибегали для оценки их ни к квантификации, ни к научному методу. Наши научные данные должны основываться на обыденном знании, научное знание должно превзойти, но не заменить обыденное знание. Однако при количественных оцениваниях это обстоятельство обычно игнорируется, разве что к делу приобщается несколько случайно подобранных эпизодов. Согласно отстаиваемой мной эпистемологии, исследователю следует попытаться систематически учитывать все критические замечания и оценки с позиций здравого смысла в адрес программы, исходящие от клиентов, их семей и членов общины. Наряду с количественными процедурами, такими, как вопросники и оценочные шкалы, которые из соображений удобства будут вводиться на этой стадии исследования в целях сбора и суммирования данных, должны быть предусмотрены и неколичественные методы сбора данных — например, работа с иерархически организованными дискуссионными группами. Там, где подобные оценки приходят в противоречие с количественными результатами, последние следует брать под сомнение, пока не будут поняты причины расхождения. Конечно, ни те, ни другие методы не непогрешимы. Но вот что следовало бы запомнить многим из нас: количественные результаты могут быть столь же мало застрахованы от ошибок, как и качественные. В конце концов, измерительные приборы в физических лабораториях часто работают неадекватно, и неисправность обнаруживается лишь благодаря качественному знанию и предположениям по поводу того, что должен был бы показывать этот прибор. (Это весьма далеко от мифа о том, что метрические показатели операционально определяют теоретические параметры.)
|
|
Приходится, к сожалению, констатировать, что в американских работах по оценке эффективности программ такое тонкое сочетание способов познания пока что не практикуется. Вместо этого наблюдается переход от одной крайности к другой. Когда для оценивания используются наблюдения антропологов, как это имеет место, например, при оценках моделей городов, они скорее замещают собой, чем дополняют количественные показатели, предусматривающие предварительное и итоговое тестирование и сравнения с контрольными группами. Актуальный пример — использование антропологов в программе «Экспериментальные школы». В одном случае предполагалось участие группы из пяти антропологов, в течение пяти лет занимавшейся изучением системы школьного образования для города с населением в 100 тысяч человек. Эти антропологи не имели ранее опыта изучения какой-либо другой системы школьного образования в США. Им не предоставили времени для специальной подготовки до введения программы, вместо этого они приступили к работе уже после того, как программа была начата. Их планы не предусматривали изучение какой-либо иной сравнимой системы школьного образования, не претерпевшей соответствующего изменения. Для того чтобы поверить, что в таких неблагоприятных для наблюдения условиях эти наблюдатели, использующие качественный подход, смогут прийти к заключению о том, какими именно характеристиками наблюдаемые ими процессы обязаны нововведениям, предусмотренным данной программой, нужно больше веры, чем есть у меня, хотя, пожалуй, следовало бы воздержаться от суждений до ознакомления с результатами. Более того, в исследовании делается упор на непосредственные наблюдения самих антропологов, а не на их роль в отборе и использовании в качестве информантов тех лиц, которые сами вовлечены в изменения, осуществляемые по данной программе 1. В результате —
_____________________________________________________________________________
1 Подробнее о методе использования информантов в полевых исследованиях см. в следующей работе: C a m p b e l l D. T. and L e V i n e R. A. Field — Manual Anthropology. — In: A Handbook of Method in Cultural Anthropology. Ed. by R. Naroll and R. Cohen, Garden City, N. Y., The Natural History Press, 1970, p. 366—387.— Прим. ред.
тенденция игнорировать данные других наблюдателей, придерживающихся качественного подхода и находящихся в более благоприятных условиях, чем эти антропологи. К таким наблюдателям относятся родители, имевшие других детей, которые обучались в школе до ее преобразования, учителя, наблюдавшие именно эту систему до, во время и после преобразования, учителя, у которых до прихода в эту школу уже имелся опыт работы в школах, сравнимых с новой по каким-то другим параметрам, и сами учащиеся. Желательно, вероятно, располагать большим массивом таких наблюдений, полученных с помощью вопросников. Поэтому естественным было бы и желание задавать соответствующие вопросы до осуществления экспериментальной программы и, кроме того, провести этот опрос в какой-нибудь школьной системе, не подвергшейся такой реформе, восстановив, таким образом, экспериментальный план и количественные обобщения качественных оценок. (Подробное обсуждение вопроса о качественном и количественном подходах читатель может найти в работе: Campbell [20] 1.)
Хотя вопрос о количественной и качественной ориентациях имеет большое практическое значение, он, тем не менее, как мне кажется, является, прежде всего, вопросом, входящим в компетенцию специалистов в области социальных наук и относительно независимым от более глобального политического процесса. То, какого подхода мы придерживаемся, во многом зависит от того, из какого подразделения в сообществе социальных исследователей затребована соответствующая рекомендация, что в свою очередь отчасти объясняется разочарованием в ранее применявшейся модели. Иными словами, решение данного вопроса принадлежит нам.
Прочие вопросы, относящиеся к числу метанаучных, больше связаны с вненаучными вопросами о человеческой природе, социальных системах и политическом процессе. Здесь я лишь классифицирую их, поскольку считаю, что первый шаг в их решении должен был бы состоять в достижении взаимопонимания между методологами — специалистами по оцениванию программ, а единство взглядов предполагает согласие не столько
______________________________________________________________________________
1 См. перевод этой работы в данной книге.
по поводу деталей метода, сколько по поводу метанаучных вопросов.
Осуществление и оценивание программ. Одна из стратегий, утвердившихся в правительственных учреждениях США, наиболее тесно связанных с оцениванием программ, состоит в организационном отделении процесса осуществления программ от их оценивания. Эта рекомендация исходит от академической группы теоретиков научного управления, она получила распространение в конце 60-х годов в правительственных кругах как «Система программирования, планирования и финансирования», или «PPBS» 1,согласно которой эти функции, как и функции надзора за программой или ее оценивания, должны были быть поручены отдельной организационной единице, не зависящей от учреждений, решающих практические задачи. (Соответствующее изложение этой стратегии принадлежит Уильямсу и Эвансу [103].) Эта рекомендация основывается на теории организационного контроля, известной как принцип проверок и балансов. Она подтверждается не только общими наблюдениями, свидетельствующими о нежелании человека заниматься самокритикой, но особенно наблюдениями из области давно принятой в США самоохранительной практики, при которой на отчеты о достижениях и другие оценки программ в первую очередь с необходимостью возлагается задача оправдать бюджет следующего года. Как полагает типичный администратор программы совершенствования в США, будь это экспериментальная программа или одна из давно принятых программ, бюджеты должны получать непрерывное оправдание. Для подобного администратора оценки программы вряд ли могут быть оторваны от этой непрекращающейся отчаянной борьбы. В такой ситуации имеется глубочайший смысл в том, чтобы функцию оценивания программ осуществляло отдельное подразделение, которому никакие бюджетные ограничения не мешают давать честные оценки. В этом отношении такая стратегия не вызывает возражений.
Мои собственные наблюдения, однако, приводят меня к выводу, что и эта стратегия не работает. Рассма-
_____________________________________________________________________________
1 См. о системе «PPBS» в работе: Г в и ш и а н и Д. М. Организация и управление. М., «Наука», изд. 2-е, 1972, с. 462—471. — Прим. ред.
триваемое разделение направлено против тех форм осуществления программ, которые оптимизировали бы интерпретацию данных оценивания. Такие формы существуют, и они к тому же дешевы, но они требуют усовершенствованного планирования и тесной кооперации исполнителя и оценщика. Внешние оценщики, помимо всего прочего, лишены, как правило, фундаментального качественного знания о происходящем. Постоянный конфликт между оценщиками и исполнителями, который примет достаточно острые формы при общем локальном руководстве, имеет тенденцию к углублению. Пригодность мер для целей локальных программ и опасности особенно уменьшаются в условиях принятых в США процедур выполнения договорных исследований. Оценивание становится деморализующим фактором и источником отвлекающего конфликта. Можно было бы надеяться, что специализация способствовала бы притоку более опытных методологов. Если и есть такой выигрыш, он полностью уничтожается недостаточным экспериментальным контролем.
Конечно, поднятые проблемы обязаны своим происхождением не только разграничению осуществления и оценивания. И доводы в пользу такого разграничения остаются весьма вескими. Тем не менее, эти проблемы вызывают беспокойство, и они достаточно взаимосвязаны, чтобы служить обоснованием для пересмотра этого принципа, особенно если учесть, что такое разграничение, видимо, полностью отсутствует в экспериментальной науке. Возникает метанаучный вопрос о том, каким образом в науке, несмотря на погрешности исследователя, достигается объективность, а также об уместности этой модели для объективности в оценивании программ.
Обычно в науке тот, кто задумывает эксперимент, сам же регистрирует показания прибора. Соответственно существует проблема пристрастной мотивации. Исследователь почти неизбежно является пристрастным защитником какого-то одного результата опыта. Появляются неопределенности в интерпретации. Под угрозой оказывается честное имя и дело всей жизни. Не все допущенные ошибки исправляются перед публикацией, причем ошибки, которые подтверждают гипотезу автора, выявить гораздо труднее. Загадка о том, как наука обретает свою объективность (если только она ее
обретает), представляет собой метанаучный вопрос, который все еще не решен. Хотя ученые, по-видимому, честнее, осторожнее и самокритичней большинства других социальных групп, эти их качества являются скорее побочным продуктом социальных сил, порождающих научную объективность, чем ее источником. Главными факторами служат, вероятно, традиция и возможность независимого повторения. Хотя философы и социологи науки лучше прояснят эти вопросы, методологи исследований по оценке эффективности программ должны проявлять внимание к возможностям моделей, применимых в их области. Забегая несколько вперед, отмечу, что я прихожу к следующей предварительной точке зрения.
Осуществление и оценивание программ совершенствования в США требуют сегодня большего энтузиазма, преданности и более высоких моральных качеств. Они могут быть усилены путем принятия в качестве модели экспериментатора-оценщика образа ученого. Если бы могли быть созданы условия для повторной перекрестной валидизации, а бюджет мог быть избавлен от угроз, проистекающих от негативных оценок (например, если бы исполнители программы могли получить право переходить для достижения той же самой цели к альтернативным программам), то от политики разграничения осуществления и оценивания можно было бы отказаться.
Наш вопрос не требует сугубо однозначного ответа. Внешние оценки могут сочетаться с внутренними оценками. Вероятно, внешнее оценивание можно было бы вполне безболезненно свести к проверке внутренних оценочных данных, поручив его кому-нибудь из методологов по оцениванию.
Максимизация повторения и критики. Продолжая разговор на ту же метанаучную тему, которая была затронута в предыдущем разделе, можно привести еще целый ряд рекомендаций относительно исследовательской стратегии. Некоторые из них противоречат ортодоксальным взглядам и практике, распространенным в США сегодня.
В настоящее время предпочтение отдается единичным, согласованным в масштабе страны оценкам даже в том случае, если нововведения по программам осуществляются во многих районах. Если бы задача состо-
яла в имитации научного подхода к объективной реальности, оптимальным было бы, вероятно, разделить большие эксперименты и общие оценки на части и заключить вместо одного два или более контрактов, преследующих общую цель, с тем чтобы получить какую-то возможность одновременного повторения. Компенсаторные образовательные программы (например, такие, как «Head Start», «Follow Through» и др. 1) иногда принимают, согласно нашим основным оценкам, такой размах, что подобное разделение не способствовало бы значительному увеличению расходов. Мы часто могли бы предусматривать нашими планами сравнительную проверку при повторении, которая помогает науке оставаться объективной.
Положительным моментом исследований по оценке эффективности в США является широко распространенная защита и проведение от случая к случаю повторного анализа данных оценивания программ другими исследователями. «Фонд Рассела» финансирует целый ряд таких работ, в том числе оценку эффективности телевизионных образовательных программ для дошкольников (Cook et al.. [31]). Первоначальную правительственную оценку (Cicirelli [29]) программы компенсаторного дошкольного образования повторно проанализировали Смит и Биссел [85] и Барноу [3]. Ведется дальнейшая работа в этом направлении. Так же обстоит дело и в отношении некоторых других классических исследований по оценке эффективности, хотя они все еще не получили широкого распространения и многие данные недоступны.
Одно из изменений, в которых нуждаются традиции исследования, или его этика — это отношение к «показаниям меньшинства» из состава исследователей. Этическое правило, согласно которому данные оценивания должны быть доступны для критического анализа, следует распространить и на сотрудников, которые проводили сбор данных и их анализ и которые очень часто прекрасно знают, как можно организовать эти данные, чтобы они подтверждали совсем иные выводы, а не те,
______________________________________________________________________________
1 Здесь и далее автор использует принятые в США условные обозначения специальных образовательных программ, призванных компенсировать отставание в развитии и образовании, в частности, детей из плохо обеспеченных семей. — Прим. ред.
которые представлены в официальном отчете. В настоящее время любые действия подобного рода рассматривались бы как достойная осуждения нелояльность по отношению к организации. Из-за этого оказывается утраченным один из особенно компетентных источников критики, а тем самым и объективности. Официальное предложение подготовить отчет, полученное каждым членом группы специалистов по оценке эффективности от учредителя или администратора, в значительной мере способствовало бы в этом отношении освобождению, как от вины, так и от цензурных ограничений.
В этой связи нам следует иметь в виду две ценные модели социального экспериментирования. С одной стороны, модель большой науки, образец которой мы находили в эксперименте «Негативный подоходный налог», он будет обсуждаться ниже. С другой стороны, модель недорогого «административного эксперимента» (Campbell [14], Thompson [89]), который состоит в том, что какая-нибудь административная единица, например город или штат (или предприятие, или школа), применяет новую стратегию таким образом, чтобы иметь возможность экспериментальной или квазиэкспериментальной проверки ее эффективности. «Практическое оценивание программ для местного управленческого персонала и персонала штатов» (Hatry et al. [51]) служит примером этого подхода. Чтобы административное экспериментирование давало объективное знание, нужна диффузная перекрестная валидизация, при которой города, штаты, и т. п., приняв обещанные нововведения, подтверждают их эффективность посредством своей собственной деятельности по оцениванию.
Децентрализация принятия решений обладает тем преимуществом, что она создает большее число социальных единиц, способных повторять и проверять социальные преобразования или одновременно изучать множество оценок различных альтернативных решений. Даже в отсутствие планирования само существование в США правления штатов создает возможность квази-экспериментальных сравнений, что было бы недоступно в более интегрированной системе. Эту точку зрения хорошо обосновал Цейзель [105, 106], а примером может служить исследование Болдуса [2], о котором ниже говорится более подробно. Если предприятия,
школы или другие подобные им по размерам единицы могут осуществлять независимый выбор программ и если заимствуемые программы оцениваются столь же тщательно, как новые, цепная реакция заимствований самых многообещающих программ обеспечивала бы что-то наподобие валидизации науки.
Исследования по оцениванию — скорее нормальная, нежели экстраординарная наука. До сих пор, рассматривая метанаучные вопросы, мы не обращались к острым метанаучным проблемам, обсуждающимся в настоящее время в США. Из них в центре внимания оказываются все еще те вопросы, которые были подняты в книге Т. Куна «Структура научных революций» [60]. Хотя я больше, чем Кун, подчеркиваю последовательность и относительную объективность науки, я нахожу в том, что он говорит, немало ценного и имеющего отношение к нашей проблеме. А именно: в научном развитии бывают нормальные периоды, когда существует общее согласие в отношении правил, с помощью которых решается, какая теория более валидна. В развитии науки имеют место и экстраординарные, или революционные, периоды, когда ученые должны делать свой выбор на основе правил, которые не являются элементами прежней парадигмы. После такой революции выбор новой преобладающей теории первоначально не обосновывается в терминах правил решения, принятых в предшествующий период нормальной науки.
В случае исследований по оценке эффективности куновская метафора «революция» может быть возвращена в политическую сферу. Ясно, что исследования по оценке эффективности осуществляются правительством или по крайней мере не вызывают у него возражений. Это предполагает наличие устойчивой социальной системы, характеризующейся социальными показателями, которые остаются сравнительно постоянными, так что ими можно пользоваться для измерения воздействия, оказанного программой. Осуществленные программы должны быть достаточно малы по объему, чтобы не вызвать серьезного нарушения в общей социальной системе. Обсуждаемая мной технология непригодна для измерения социальных воздействий какой-либо революции. Даже в рамках стабильной политической ситуации ее приложения следует, возможно, ограничить сравнительно
второстепенными нововведениями. Это показывает, например, Цейзель, рассматривая экспериментирование с правовой системой США. (Само собой разумеется, я не собираюсь строить на этом валидную аргументацию против осуществления изменений, масштабы которых делают невозможным их оценивание.)