О теории экспериментирования

Этот параграф написан, прежде всего, для специалиста в области прикладной науки, который хочет перенести свое исследование из лаборатории в «производственные» условия. Авторы не могут не сознавать, что

психологи-экспериментаторы с большим подозрением относятся к любой попытке санкционировать исследования, которые не предполагают полного контроля экспериментальных параметров. Следующие общие соображения, касающиеся роли эксперимента в науке, отчасти приводятся ради оправдания квазиэксперимента в глазах таких ревнителей чистоты исследования. Мы надеемся, что эти соображения согласуются с большинством современных воззрений в области философии науки и исходят из того, что могло бы стать в будущем общей психологией индуктивных процессов (Campbell [11]).

Наука, как и другие процессы познания, связана с выдвижением теорий, гипотез, моделей и т. д. и с принятием или отклонением их на основе некоторых внешних критериев. Экспериментирование принадлежит к этой второй фазе — к фазе прореживания, отклонения, редактирования. Мы можем предположить существование своего рода экологии науки, в которой число потенциально позитивных гипотез значительно превышает число гипотез, которые, пройдя проверку, окажутся в дальнейшем совместимыми с нашими наблюдениями. Задача сбора данных для испытания теории — это преимущественно задача отбрасывания несостоятельных гипотез. Для решения этой задачи полезен любой способ организации наблюдений, определенные результаты которых опровергают теорию, в том числе квазиэксперименты, обладающие меньшей эффективностью, чем истинные эксперименты.

Но позволительно спросить: не приведут ли такие несовершенные эксперименты к незаконному подтверждению ошибочной теории, не направят ли по ложному пути наши дальнейшие поиски и не поглотят ли напрасно в наших журналах место десятки статей, посвященных опровержению ошибочно принятой, но броско поданной гипотезы? Риск серьезный, но на него мы должны пойти. Это риск того же рода, если не в такой же степени, как и в случае «истинных» экспериментов, проводимых по планам 4, 5 и 6. Дело в том, что результаты эксперимента никогда не «подтверждают», не «доказывают» теорию. Скорее, успешная теория проверяется и избегает опровержения. Слово «доказывает» из-за его частого употребления для обозначения дедук-

тивной валидности приобрело в нашем поколении значение, не соответствующее ни его прежнему употреблению, ни его применению в индуктивных процедурах, таких, как экспериментирование. Результаты эксперимента «опробывают» (probe), а не «доказывают» теорию. Адекватная гипотеза — это гипотеза, которая выдержала неоднократно такие проверки, но она всегда может быть отвергнута новым испытанием.

Теперь уже все понимают, что «нулевая гипотеза», часто используемая как удобный способ формулировать гипотезу эксперимента, никогда не может быть «принята» в свете полученных данных. Она может быть только или «отвергнута», или «не отвергнута». Так же обстоит дело и с гипотезами в более общем плане: они формально никогда не «подтверждаются». Если мы из удобства и пользуемся этим термином, то, скорее, имеем в виду, что гипотеза была подвергнута критической проверке, но не опровергнута. Эта точка зрения согласуется со всеми положениями юмовской философии науки, которые подчеркивают невозможность дедуктивного доказательства индуктивных законов. Недавно Хэнсон, [49] и Поппер [90] особенно ясно высказались по этому вопросу. Многие массивы данных, полученные в педагогических исследованиях, мало или вообще не пригодны для проверки гипотез, а многие системы гипотез столь тесно связаны между собой, что их нельзя опровергнуть доступными нам средствами проверки. Мы не намерены ратовать за такие псевдоисследования. Обсуждаемые ниже планы экспериментов, как мы надеемся, обладают достаточной эффективностью в качестве инструмента проверки гипотез, однако ими следует пользоваться лишь в том случае, когда недоступны более эффективные средства проверки.

Мнение, что эксперимент никогда не «подтверждает» теорию, хотя и правильно, но настолько противоречит нашим установкам и опыту ученых, что является почти нетерпимым. Оно кажется особенно неудовлетворительным, когда знакомишься с изящными, поразительными подтверждениями теории, нередко встречающимися в физике и химии, где результаты эксперимента могут до мельчайших деталей совпадать в многочисленных точках измерения со сложной кривой, предсказанной теорией. И такое представление становится феноменологи-

чески неприемлемым для большинства из нас, если его распространить на индуктивные процессы зрения. Так, трудно свыкнуться с мыслью, что столы и стулья, которые мы «видим» перед собой, не «подтверждены», не «доказаны» визуальными данными, но суть «всего лишь» гипотезы относительно внешних объектов, пока еще не опровергнутые многочисленными проверками в процессе функционирования зрительной системы¹. В этом нашем внутреннем противодействии есть зерно истины.

Степень «подтверждения» определяется для той или иной теории числом правдоподобных конкурентных гипотез, которые могут быть привлечены для объяснения результатов. Чем меньше остается таких правдоподобных конкурентных гипотез, тем больше степень «подтверждения». Надо полагать, на каждой стадии накопления данных, даже в случае самой развитой науки, существует множество совместимых с результатами теорий, особенно если допустить все теории, включающие сложные условные данные. Однако у «вполне установленных» теорий и теорий, полностью опробованных сложными экспериментами, остается мало или вовсе не остается серьезных конкурентов. Эпистемологически это соответствует подтверждению теории в результате изящных экспериментов. Столь же малое число конкурентных гипотез имеет место в знании, которое позитивно в феноменальном плане; очевидно, такое знание дает зрение в отличие, например, от относительной неоднозначности слепого тактильного обследования.

В этом плане список источников невалидности, контролируемых в экспериментальных моделях, можно рассматривать как перечень часто возникающих правдоподобных гипотез, конкурирующих с гипотезой об эффекте, вызванном экспериментальной переменной. План эксперимента, ставящий какой-либо побочный фактор «под контроль», просто делает соответствующую конкурентную гипотезу маловероятной, даже если при некотором стечении обстоятельств этот фактор все еще способен вызвать полученный в эксперименте эффект.

_____________________________________________________________________________

^{1 См. также: К э м п б е л л Д. Т. Слепые вариации и селективный отбор как главная стратегия процессов познания. — В кн.: Самоорганизующиеся системы. М., «Мир», 1964. — Прим. ред.}

«Правдоподобные конкурентные гипотезы», которые делают необходимым традиционное использование особых контрольных групп, имеют статус «вполне установленных» эмпирических законов. Это эффект тренировки, требующий введения контрольной группы в план 2, внушаемость (контрольные группы здесь вводятся для приема плацебо), хирургический шок (контрольные группы пациентов, подвергаемых ложным операциям) '. Конкурентные гипотезы остаются правдоподобными, пока мы склонны приписывать им статус эмпирических законов. Если какой-либо параметр не контролируется в квазиэксперименте, необходимо при интерпретации результатов тщательно выяснить вероятность их объяснения за счет неконтролируемых факторов. Чем невероятнее такое объяснение, тем «валиднее» эксперимент.

Как отмечалось при обсуждении плана Соломона для четырех групп (план 5), чем многочисленнее и независимее способы, с помощью которых демонстрируется экспериментальный эффект, тем менее правдоподобна любая отдельно взятая гипотеза, ставящая под сомнение валидность эксперимента, и тем меньше число таких гипотез. Здесь мы обращаемся к принципу экономичности. «Валидность» эксперимента сводится к относительной вероятности конкурирующих теорий — теорий, объясняющих эффект фактором X, и теорий, приписывающих эффект действию неконтролируемых факторов. Если некоторые различия могут быть полностью объяснены единственной гипотезой о том, что эффект вызван именно X, в то время как для каждого наблюдаемого отклонения нужно каждый раз строить новые предположения о действии неконтролируемых факторов, то эффект фактора X становится наиболее убедительным. К такой логике вывода часто прибегают в обзорах литературы по экспериментам, в которых отсутствует полный контроль. Так, Уотсон [131, с. 296] нашел убедительной гипотезу об отрицательном действии длительного отсутствия матери, ибо это подкреплялось целым рядом разнородных данных, тогда как специфические неадекватные детали в этих данных были раз-

_____________________________________________________________________________

¹ Этот вопрос подробнее рассматривается в работе «Научный вывод, артефакты и контроль» (см. перевод в данной книге). — Прим. ред.

личными в разных исследованиях. Гликман [40], несмотря на наличие правдоподобных конкурентных гипотез в каждом из рассмотренных им исследований, счел данные в пользу процесса консолидации убедительными именно потому, что правдоподобная конкурентная гипотеза менялась от исследования к исследованию. Этот подход, обычно применяемый при комбинировании выводов нескольких исследований, сознательно введен в некоторые планы квазиэкспериментов, особенно в «лоскутные» («patched-up») планы вроде плана 15.

Принцип экономичности не столько оправдан с дедуктивной точки зрения, сколько является общим предположением о природе мира, лежащим в основе почти всех теоретических построений в науке, даже, несмотря на его частую несостоятельность в конкретных приложениях. С ним связана другая аргументация правдоподобия, к которой мы обратимся главным образом при обсуждении широко распространенного плана 10 (хороший план кеазиэксперимента, который нередко путают с экспериментом по плану 4, принадлежащим к разряду истинных экспериментов). Эта аргументация исходит из того, что главный эффект одной переменной считается более вероятным, чем взаимодействие двух других переменных, или в более общем виде — главный эффект более вероятен, чем эффект взаимодействия. В пределе мы можем отметить, что если каждое взаимодействие высшего порядка значимо, если каждый эффект специфичен для определенных значений по всем другим потенциальным факторам, то наука невозможна. Если мы все-таки можем делать обобщения, то только потому, что множеством потенциально определяющих факторов можно пренебречь. Андервуд [129, с. 6] ссылался на это как на постулат конечной каузальной связи.

Следующие страницы посвящены экспериментам, в которых изучается одна-единственная группа. Начиная с 1920 гг. самыми распространенными планами экспериментов в психологии и педагогике стали планы с применением контрольной группы (см. планы 4, 6 и особенно план 10, о котором пойдет речь ниже). В социальных науках и полевых исследованиях планы экспериментов, включающие контрольные группы, заняли столь господствующее положение, что, похоже, сделались

для многих синонимом эксперимента вообще. В результате возникла опасность того, что ряд научных работников откажется от процедур, сходных с экспериментированием, если нельзя будет сформировать контрольные труппы, и в итоге исследование проиграет в точности больше, чем было бы необходимо. Существует, однако, несколько разновидностей квазиэкспериментальных планов, применяемых при обследовании отдельных групп, и этими планами с успехом можно пользоваться, сохраняя логику экспериментального подхода и возможность интерпретации результатов во многих случаях, когда обращение к контрольной группе невозможно. Так, эксперимент часто проходит в производственных условиях — учитель имеет в своем распоряжении собственный класс, директор средней школы может проводить периодические опросы и т. д. В таких случаях дифференцированное предъявление воздействия различным участникам обследования (что необходимо для эксперимента с использованием контрольных групп) часто невозможно по причинам административного порядка, а если даже возможно, то нежелательно из-за возникновения реакции испытуемых на эксперимент. В таких условиях стоит взвесить целесообразность ограничиться планами эксперимента с использованием одной группы испытуемых.

7. Эксперимент по плану временных серий

Суть эксперимента данного типа состоит в осуществлении серии периодических замеров на некоторой группе или индивиде с введением экспериментального воздействия посреди серии. На эффект воздействия указывает нарушение непрерывности результатов измерения, регистрируемых в этой серии. Этот план может быть представлен схематически следующим образом:

O ₁ O ₂ O ₃ О ₄X O ₅ O ₆ O ₇ O ₈.

Этот экспериментальный план типичен для многих классических исследований, проводившихся в XIX в. в физических науках и биологии. Так, если железный брусок, вес которого оставался неизменным в течение не-

скольких месяцев, окунуть в азотную кислоту, а затем вынуть из нее, то вывод, связывающий пребывание бруска в азотной кислоте и уменьшение его веса, будет основываться, в общем, на той же логике. На полке могли бы находиться «контрольные группы» брусков, вес которых оставался бы неизменным, однако вряд ли кто-нибудь счел бы нужным их взвешивать. Вероятно, этот тип эксперимента признается валидным в более успешных науках, тогда как он редко удостаивался упоминания в списках экспериментальных планов, применяемых в социальных науках (см., однако, Maxwell [73]; Underwood [129, с.133]). Различное отношение к этому типу эксперимента имеет свои основания, тщательное рассмотрение которых позволит лучше понять, когда он может осмысленно применяться в социальных науках в отсутствие более полного контроля параметров эксперимента. Данный план типичен для классических процедур, применявшихся Британской комиссией по исследованию производственного утомления при изучении факторов, влияющих на выпуск продукции (например, Farmer, Brooks, Chambers [34]).

На рис. 3 изображены некоторые возможные результаты серии периодических замеров, то есть так называемые временные ряды. Момент включения экспериментального воздействия всюду отмечен вертикальной линией X. Предположим, что исследователь будет склонен делать вывод о наличии эффекта X в случаях А, Б, а также, вероятно, в случаях В, Г и Д и не будет склонен делать его в случаях Е, Ж и 3, даже если скачок в результатах замера от O ₄ к О ₃ в них столь же велик и статистически стабилен, как и для А и Б, например. Отложив пока обсуждение статистической обработки, отметим лишь, что проблема внутренней валидности сводится к вопросу о правдоподобных конкурентных гипотезах, которые дают вероятные альтернативные объяснения сдвигу во временном ряду за счет факторов, отличных от X. Факторы, которые в оптимальных условиях контролируются рассматриваемым планом эксперимента, приводятся в табл. 2. Сильные стороны этого типа эксперимента особенно заметны на фоне плана 2, с которым он имеет внешнее сходство, выражающееся в отсутствии контрольной группы и применении тестирования до и после X.

Р и с. 3. Некоторые возможные результаты введения экспериментального воздействия в точке X для серии периодических замеров О ₁ — O ₈. За исключением случая Г, увеличение от O ₄к O ₅ одинаково для всех временны́х рядов, хотя право мерность вывода о наличии эффекта весьма

различна: она максимальна для кривых А и Б и совершенно отсутствует в случаях Е, Ж и З.

Просматривая список источников угроз внутренней валидности в табл. 2, мы видим, что слабым местом эксперимента по плану 7 является отсутствие контроля фона. Иначе говоря, возможна конкурентная гипотеза о том, что сдвиг в результатах вызван не X, а другими

событиями, происшедшими примерно в то же самое время. Именно от правомерности устранения гипотезы о роли фона зависит достоверность интерпретации такого эксперимента. Взять, к примеру, эксперимент, предусматривающий повторные измерения для выяснения влияния документального фильма на оценку школьниками вероятности войны. Здесь отсутствие полного контроля над происходящими параллельно событиями будет иметь серьезные последствия, так как очевидно, что, помимо воздействий, контролируемых экспериментатором в классе, дети ежедневно подвергаются многим другим, потенциально имеющим отношение к вопросу войны и мира. Конечно, даже при таком изобилии неэкспериментальных воздействий, которые могут оказывать влияние на результаты опыта, возможна их правдоподобная интерпретация, оправдывающая постановку данного эксперимента. Как отмечалось выше, фактор фона порождает условия, противоположные тем, которые в физической или биологической лаборатории были бы названы экспериментальной изоляцией. Вероятность фоновых воздействий в качестве источника наблюдаемого сдвига, вроде того, что мы находим на рис. 3 (кривые А и Б), в значительной мере зависит от степени экспериментальной изоляции, которую в состоянии обеспечить экспериментатор. Павловские исследования условных рефлексов у собак, по существу являющиеся экспериментами «на одной группе» или «на одном животном», не служили бы в такой мере подтверждению его теорий, если бы опыты велись не в звуконепроницаемой лаборатории, а на оживленном перекрестке. Что конкретно понимать под экспериментальной изоляцией, зависит от изучаемой проблемы и от характера применяемой измерительной процедуры. Обеспечение экспериментальной изоляции при исследовании элементарных частиц в камере Вильсона или счетчиками сцинтилляций требует принятия более серьезных мер предосторожности, чем в воображаемом эксперименте с железным бруском, погружаемым в азотную кислоту. Во многих ситуациях, в которых применим план 7, экспериментатор мог бы с большой степенью уверенности говорить о наличии экспериментальной изоляции в том смысле, что он знал, какие конкурентные события

могли бы обусловить наблюдавшийся эффект, и сумел существенно снизить вероятность их действия.

К фону можно из соображений удобства отнести влияние погоды и времени года. Так, при исследовании производительности труда рабочих может иметь место смешивание экспериментального фактора с сезонными изменениями в освещенности, погоде и т. д. Поэтому соответствующие эксперименты обычно проводятся в различное время года.

Пожалуй, легче всего контролировать действие циклических факторов фона, связанных с институциональными обычаями в жизни группы (недельные циклы труда, выдачи зарплаты, периоды экзаменов, каникулы, школьные праздники), вызывающих периодические изменения зависимой переменной. В известном смысле эти факторы близки фактору естественного развития. При проведении серии наблюдений нужно стремиться к тому, чтобы известные циклы оставались постоянными или серия по длительности охватывала несколько таких циклов.

Продолжим анализ факторов, которые подлежат контролю. Естественное развитие, когда результаты наблюдений отвечают кривым А и Б на рис. 3, не может служить правдоподобным объяснением скачка, имевшего место между O ₄ и О ₅, но отсутствовавшего в другие периоды времени. (Однако естественное развитие не всегда бывает гладким, регулярным. Так, внезапное наступление первой менструации у школьниц способно сместить значения физиологических показателей, создавая в случае плана 7 ложный экспериментальный эффект.) Точно так же не является допустимой конкурентной гипотезой для скачка между O ₄ и O ₅ и влияние тестирования. Но, располагая, как в эксперименте по плану 2, только этими наблюдениями (в точках О ₄ и O ₅), мы не можем считать неправдоподобными эффекты естественного развития и тестирования. В этом большое преимущество данного плана перед планом 2.

Аналогично для плана 7, в отличие от рассмотренных ранее планов, возможные ссылки на инструментальную погрешность будут лишены конкретных оснований, поскольку нет причин ожидать, что ошибка прибора будет иметь место именно в этом замере. Однако вопро-

сительный знак в табл. 2 требует обратить внимание на ситуации, в которых изменение калибровки средства измерения может быть неправильно истолковано как эффект X. Если в измерительной процедуре используются оценки, даваемые лицами, знакомыми с замыслом эксперимента, то может иметь место ложное подтверждение гипотезы из-за того, что испытуемые представляют себе, каковы должны быть ожидаемые результаты. Так, экспериментальное воздействие в виде назначения нового директора школы может повлиять на регистрацию нарушений школьной дисциплины, а не на число самих нарушений. При использовании плана 7 для определения эффекта значительных изменений в административной политике необходимо избегать одновременного перехода к новой процедуре измерения. В большинстве случаев, чтобы сохранить возможность интерпретировать результаты серии замеров, лучше бывает продолжать использование устаревшей процедуры, а не переходить к новой.

Эффект регрессии обычно выражается функцией с отрицательной второй производной по времени (negatively accelerated function) и поэтому не даст правдоподобного объяснения большего эффекта O ₅, чем в точке O ₂, O ₃ и O ₄. Фактор состава экспериментальной группы как источник главного эффекта отпадает так же, как и для эксперимента типа 2, если все замеры производятся на одних и тех же лицах. Если данные по группе регистрируются в основном в индивидуальном порядке, то, как и в плане 2, отпадает фактор выбывания из групп. Однако если наблюдения относятся к группе в целом, то необходимо параллельно регистрировать изменения в составе группы, следя за тем, чтобы совпадения в изменении личного состава не давали оснований для конкурентной гипотезы.

Перейдем теперь к внешней валидности. Ясно, что экспериментальный эффект может быть характерен только для тех членов популяции, которые подвергаются повторной проверке. Это вряд ли составляет ограничение исследований в области школьного обучения, если эксперимент не включает процедуры тестирования (О), необычные для школьной обстановки. Более того, эксперимент данного типа обычно подходит для тех учреждений, в которых сбор и регистрация данных ве-

дутся постоянно и составляют естественную часть окружения. Годовые проверки уровня знаний в средних школах, отметки о болезни и т. д. обычно не сопряжены с реакцией на эксперимент в том смысле, что они типичны для генеральной совокупности, на которую хотят распространить сделанные выводы. Взаимодействие между составом группы (отбором испытуемых) и X означало бы, что полученный эффект является особенностью данной выборки и что он не типичен для изучаемой генеральной совокупности, относительно которой сформированная естественным путем экспериментальная группа была бы смещенной выборкой. Так, специфика данных может вынудить исследователя ограничиться результатами только тех учеников, которые в течение долгого времени не пропустили ни одного обследования, то есть явно отобранного подмножества. Кроме того, если использовались новые измерительные процедуры О, то повторные случаи этого могли провоцировать уклонение от обследований.

Если такие временные серии интерпретируются как эксперименты, важно, чтобы экспериментатор заранее уточнил, сколько времени должно пройти между введением экспериментальной переменной и проявлением ее эффекта. При наличии этих данных форма кривой Г на рис. 3 будет почти столь же определенно указывать на наличие эффекта, как и кривая А. Массовые обследования, в которых решения основываются на интерпретациях отсроченных эффектов, нуждаются в перекрестной валидизации. При увеличении времени отсрочки растет также вероятность появления эффектов, вызванных фактором фона.

Столь же важно, чтобы исследователь определил X еще до того, как он приступит к анализу временной серии. Попытки установить post hoc, какое X предшествовало наиболее значительному сдвигу, следует исключить на том основании, что допускаемый при этом произвол затрудняет, а то и делает вовсе невозможным проверку значимости эффектов.

Преобладание экспериментов рассматриваемого типа в более успешных науках должно внушать определенное уважение к нему. Однако нам нужно помнить, что благодаря «экспериментальной изоляции» и «постоянству условий» там имеется больше возможностей для

интерпретации результатов. Следует также иметь в виду, что там никогда не делается вывод по данным одного эксперимента. План 7 воспроизводится в самых различных условиях разными исследователями, прежде чем устанавливается закон, хотя они могут никогда не обращаться к контрольным группам. Мы также должны следовать этому правилу. Если лучший контроль невозможен, мы будем пользоваться этим планом эксперимента. Нам нужно так организовать дело, чтобы получать как можно больше временных серий, и постараться более детально, чем раньше, изучить влияние административных изменений и других внешних внезапных и случайных событий в качестве X. Но результаты не будут считаться достоверными, пока они не будут многократно воспроизведены в различных условиях¹.

План с эквивалентными