О теории экспериментирования

Этот параграф написан, прежде всего, для специали­ста в области прикладной науки, который хочет пере­нести свое исследование из лаборатории в «производ­ственные» условия. Авторы не могут не сознавать, что

психологи-экспериментаторы с большим подозрением относятся к любой попытке санкционировать исследо­вания, которые не предполагают полного контроля экспериментальных параметров. Следующие общие со­ображения, касающиеся роли эксперимента в науке, от­части приводятся ради оправдания квазиэксперимента в глазах таких ревнителей чистоты исследования. Мы надеемся, что эти соображения согласуются с большин­ством современных воззрений в области философии науки и исходят из того, что могло бы стать в будущем общей психологией индуктивных процессов (Campbell [11]).

Наука, как и другие процессы познания, связана с выдвижением теорий, гипотез, моделей и т. д. и с при­нятием или отклонением их на основе некоторых внеш­них критериев. Экспериментирование принадлежит к этой второй фазе — к фазе прореживания, отклонения, редактирования. Мы можем предположить существова­ние своего рода экологии науки, в которой число потен­циально позитивных гипотез значительно превышает число гипотез, которые, пройдя проверку, окажутся в дальнейшем совместимыми с нашими наблюдениями. Задача сбора данных для испытания теорииэто пре­имущественно задача отбрасывания несостоятельных гипотез. Для решения этой задачи полезен любой спо­соб организации наблюдений, определенные результа­ты которых опровергают теорию, в том числе квази­эксперименты, обладающие меньшей эффективностью, чем истинные эксперименты.

Но позволительно спросить: не приведут ли такие несовершенные эксперименты к незаконному подтверж­дению ошибочной теории, не направят ли по ложному пути наши дальнейшие поиски и не поглотят ли напрас­но в наших журналах место десятки статей, посвя­щенных опровержению ошибочно принятой, но броско поданной гипотезы? Риск серьезный, но на него мы должны пойти. Это риск того же рода, если не в такой же степени, как и в случае «истинных» экспериментов, проводимых по планам 4, 5 и 6. Дело в том, что резуль­таты эксперимента никогда не «подтверждают», не «доказывают» теорию. Скорее, успешная теория прове­ряется и избегает опровержения. Слово «доказывает» из-за его частого употребления для обозначения дедук-

тивной валидности приобрело в нашем поколении зна­чение, не соответствующее ни его прежнему употребле­нию, ни его применению в индуктивных процедурах, таких, как экспериментирование. Результаты экспери­мента «опробывают» (probe), а не «доказывают» теорию. Адекватная гипотеза — это гипотеза, которая выдержа­ла неоднократно такие проверки, но она всегда может быть отвергнута новым испытанием.

Теперь уже все понимают, что «нулевая гипотеза», часто используемая как удобный способ формулировать гипотезу эксперимента, никогда не может быть «приня­та» в свете полученных данных. Она может быть толь­ко или «отвергнута», или «не отвергнута». Так же об­стоит дело и с гипотезами в более общем плане: они формально никогда не «подтверждаются». Если мы из удобства и пользуемся этим термином, то, скорее, имеем в виду, что гипотеза была подвергнута критической про­верке, но не опровергнута. Эта точка зрения согласует­ся со всеми положениями юмовской философии науки, которые подчеркивают невозможность дедуктивного до­казательства индуктивных законов. Недавно Хэнсон, [49] и Поппер [90] особенно ясно высказались по этому вопросу. Многие массивы данных, полученные в педагогических исследованиях, мало или вообще не при­годны для проверки гипотез, а многие системы гипотез столь тесно связаны между собой, что их нельзя опро­вергнуть доступными нам средствами проверки. Мы не намерены ратовать за такие псевдоисследования. Об­суждаемые ниже планы экспериментов, как мы надеем­ся, обладают достаточной эффективностью в качестве инструмента проверки гипотез, однако ими следует пользоваться лишь в том случае, когда недоступны бо­лее эффективные средства проверки.

Мнение, что эксперимент никогда не «подтверждает» теорию, хотя и правильно, но настолько противоречит нашим установкам и опыту ученых, что является почти нетерпимым. Оно кажется особенно неудовлетворитель­ным, когда знакомишься с изящными, поразительными подтверждениями теории, нередко встречающимися в физике и химии, где результаты эксперимента могут до мельчайших деталей совпадать в многочисленных точ­ках измерения со сложной кривой, предсказанной тео­рией. И такое представление становится феноменологи-

чески неприемлемым для большинства из нас, если его распространить на индуктивные процессы зрения. Так, трудно свыкнуться с мыслью, что столы и стулья, кото­рые мы «видим» перед собой, не «подтверждены», не «доказаны» визуальными данными, но суть «всего лишь» гипотезы относительно внешних объектов, пока еще не опровергнутые многочисленными проверками в процессе функционирования зрительной системы1. В этом нашем внутреннем противодействии есть зерно истины.

Степень «подтверждения» определяется для той или иной теории числом правдоподобных конкурентных гипотез, которые могут быть привлечены для объясне­ния результатов. Чем меньше остается таких правдопо­добных конкурентных гипотез, тем больше степень «подтверждения». Надо полагать, на каждой стадии накопления данных, даже в случае самой развитой науки, существует множество совместимых с результа­тами теорий, особенно если допустить все теории, вклю­чающие сложные условные данные. Однако у «вполне установленных» теорий и теорий, полностью опробо­ванных сложными экспериментами, остается мало или вовсе не остается серьезных конкурентов. Эпистемологически это соответствует подтверждению теории в ре­зультате изящных экспериментов. Столь же малое чис­ло конкурентных гипотез имеет место в знании, которое позитивно в феноменальном плане; очевидно, такое знание дает зрение в отличие, например, от относитель­ной неоднозначности слепого тактильного обследования.

В этом плане список источников невалидности, конт­ролируемых в экспериментальных моделях, можно рас­сматривать как перечень часто возникающих правдопо­добных гипотез, конкурирующих с гипотезой об эффек­те, вызванном экспериментальной переменной. План эксперимента, ставящий какой-либо побочный фактор «под контроль», просто делает соответствующую конку­рентную гипотезу маловероятной, даже если при неко­тором стечении обстоятельств этот фактор все еще способен вызвать полученный в эксперименте эффект.

_____________________________________________________________________________

1 См. также: К э м п б е л л Д. Т. Слепые вариации и селектив­ный отбор как главная стратегия процессов познания. — В кн.: Са­моорганизующиеся системы. М., «Мир», 1964. — Прим. ред.

«Правдоподобные конкурентные гипотезы», которые делают необходимым традиционное использование осо­бых контрольных групп, имеют статус «вполне установ­ленных» эмпирических законов. Это эффект трениров­ки, требующий введения контрольной группы в план 2, внушаемость (контрольные группы здесь вводятся для приема плацебо), хирургический шок (контрольные группы пациентов, подвергаемых ложным операциям) '. Конкурентные гипотезы остаются правдоподобными, по­ка мы склонны приписывать им статус эмпирических за­конов. Если какой-либо параметр не контролируется в квазиэксперименте, необходимо при интерпретации ре­зультатов тщательно выяснить вероятность их объясне­ния за счет неконтролируемых факторов. Чем невероят­нее такое объяснение, тем «валиднее» эксперимент.

Как отмечалось при обсуждении плана Соломона для четырех групп (план 5), чем многочисленнее и не­зависимее способы, с помощью которых демонстрирует­ся экспериментальный эффект, тем менее правдоподоб­на любая отдельно взятая гипотеза, ставящая под со­мнение валидность эксперимента, и тем меньше число таких гипотез. Здесь мы обращаемся к принципу эко­номичности. «Валидность» эксперимента сводится к относительной вероятности конкурирующих теорий — теорий, объясняющих эффект фактором X, и теорий, приписывающих эффект действию неконтролируемых факторов. Если некоторые различия могут быть полно­стью объяснены единственной гипотезой о том, что эф­фект вызван именно X, в то время как для каждого на­блюдаемого отклонения нужно каждый раз строить но­вые предположения о действии неконтролируемых фак­торов, то эффект фактора X становится наиболее убе­дительным. К такой логике вывода часто прибегают в обзорах литературы по экспериментам, в которых отсут­ствует полный контроль. Так, Уотсон [131, с. 296] нашел убедительной гипотезу об отрицательном действии дли­тельного отсутствия матери, ибо это подкреплялось целым рядом разнородных данных, тогда как специфи­ческие неадекватные детали в этих данных были раз-

_____________________________________________________________________________

1 Этот вопрос подробнее рассматривается в работе «Научный вывод, артефакты и контроль» (см. перевод в данной книге). — Прим. ред.

личными в разных исследованиях. Гликман [40], не­смотря на наличие правдоподобных конкурентных гипотез в каждом из рассмотренных им исследований, счел данные в пользу процесса консолидации убеди­тельными именно потому, что правдоподобная конку­рентная гипотеза менялась от исследования к исследо­ванию. Этот подход, обычно применяемый при комбини­ровании выводов нескольких исследований, сознательно введен в некоторые планы квазиэкспериментов, особен­но в «лоскутные» («patched-up») планы вроде плана 15.

Принцип экономичности не столько оправдан с де­дуктивной точки зрения, сколько является общим пред­положением о природе мира, лежащим в основе почти всех теоретических построений в науке, даже, несмотря на его частую несостоятельность в конкретных прило­жениях. С ним связана другая аргументация правдо­подобия, к которой мы обратимся главным образом при обсуждении широко распространенного плана 10 (хоро­ший план кеазиэксперимента, который нередко путают с экспериментом по плану 4, принадлежащим к разряду истинных экспериментов). Эта аргументация исходит из того, что главный эффект одной переменной считается более вероятным, чем взаимодействие двух других пе­ременных, или в более общем виде — главный эффект более вероятен, чем эффект взаимодействия. В пределе мы можем отметить, что если каждое взаимодействие высшего порядка значимо, если каждый эффект специ­фичен для определенных значений по всем другим по­тенциальным факторам, то наука невозможна. Если мы все-таки можем делать обобщения, то только потому, что множеством потенциально определяющих факторов можно пренебречь. Андервуд [129, с. 6] ссылался на это как на постулат конечной каузальной связи.

Следующие страницы посвящены экспериментам, в которых изучается одна-единственная группа. Начиная с 1920 гг. самыми распространенными планами экспери­ментов в психологии и педагогике стали планы с при­менением контрольной группы (см. планы 4, 6 и осо­бенно план 10, о котором пойдет речь ниже). В соци­альных науках и полевых исследованиях планы экспе­риментов, включающие контрольные группы, заняли столь господствующее положение, что, похоже, сделались

для многих синонимом эксперимента вообще. В резуль­тате возникла опасность того, что ряд научных работ­ников откажется от процедур, сходных с экспериментированием, если нельзя будет сформировать контрольные труппы, и в итоге исследование проиграет в точности больше, чем было бы необходимо. Существует, однако, несколько разновидностей квазиэкспериментальных планов, применяемых при обследовании отдельных групп, и этими планами с успехом можно пользоваться, сохраняя логику экспериментального подхода и воз­можность интерпретации результатов во многих случа­ях, когда обращение к контрольной группе невозможно. Так, эксперимент часто проходит в производственных условиях — учитель имеет в своем распоряжении соб­ственный класс, директор средней школы может прово­дить периодические опросы и т. д. В таких случаях диф­ференцированное предъявление воздействия различным участникам обследования (что необходимо для экспе­римента с использованием контрольных групп) часто невозможно по причинам административного порядка, а если даже возможно, то нежелательно из-за возник­новения реакции испытуемых на эксперимент. В таких условиях стоит взвесить целесообразность ограничиться планами эксперимента с использованием одной группы испытуемых.

7. Эксперимент по плану временных серий

Суть эксперимента данного типа состоит в осуществ­лении серии периодических замеров на некоторой груп­пе или индивиде с введением экспериментального воз­действия посреди серии. На эффект воздействия указы­вает нарушение непрерывности результатов измерения, регистрируемых в этой серии. Этот план может быть представлен схематически следующим образом:

O 1 O 2 O 3 О 4X O 5 O 6 O 7 O 8.

Этот экспериментальный план типичен для многих клас­сических исследований, проводившихся в XIX в. в фи­зических науках и биологии. Так, если железный бру­сок, вес которого оставался неизменным в течение не-

скольких месяцев, окунуть в азотную кислоту, а затем вынуть из нее, то вывод, связывающий пребывание бруска в азотной кислоте и уменьшение его веса, будет основываться, в общем, на той же логике. На полке могли бы находиться «контрольные группы» брусков, вес которых оставался бы неизменным, однако вряд ли кто-нибудь счел бы нужным их взвешивать. Вероятно, этот тип эксперимента признается валидным в более успешных науках, тогда как он редко удостаивался упомина­ния в списках экспериментальных планов, применяемых в социальных науках (см., однако, Maxwell [73]; Underwood [129, с.133]). Различное отношение к этому типу эксперимента имеет свои основания, тщательное рас­смотрение которых позволит лучше понять, когда он мо­жет осмысленно применяться в социальных науках в отсутствие более полного контроля параметров экспери­мента. Данный план типичен для классических проце­дур, применявшихся Британской комиссией по исследо­ванию производственного утомления при изучении фак­торов, влияющих на выпуск продукции (например, Farmer, Brooks, Chambers [34]).

На рис. 3 изображены некоторые возможные резуль­таты серии периодических замеров, то есть так называе­мые временные ряды. Момент включения эксперимен­тального воздействия всюду отмечен вертикальной ли­нией X. Предположим, что исследователь будет склонен делать вывод о наличии эффекта X в случаях А, Б, а также, вероятно, в случаях В, Г и Д и не будет склонен делать его в случаях Е, Ж и 3, даже если скачок в ре­зультатах замера от O 4 к О 3 в них столь же велик и статистически стабилен, как и для А и Б, например. Отложив пока обсуждение статистической обработки, отметим лишь, что проблема внутренней валидности сводится к вопросу о правдоподобных конкурентных гипотезах, которые дают вероятные альтернативные объяснения сдвигу во временном ряду за счет факторов, отличных от X. Факторы, которые в оптимальных усло­виях контролируются рассматриваемым планом экспе­римента, приводятся в табл. 2. Сильные стороны этого типа эксперимента особенно заметны на фоне плана 2, с которым он имеет внешнее сходство, выражающееся в отсутствии контрольной группы и применении тести­рования до и после X.

Р и с. 3. Некоторые возможные результаты введения экспери­ментального воздействия в точке X для серии периодических замеров О 1 — O 8. За исключением случая Г, увеличение от O 4 к O 5 одинаково для всех временны́х рядов, хотя право мерность вывода о наличии эффекта весьма

различна: она максимальна для кривых А и Б и совершенно отсутствует в случаях Е, Ж и З.

Просматривая список источников угроз внутренней валидности в табл. 2, мы видим, что слабым местом эксперимента по плану 7 является отсутствие контроля фона. Иначе говоря, возможна конкурентная гипотеза о том, что сдвиг в результатах вызван не X, а другими

событиями, происшедшими примерно в то же самое время. Именно от правомерности устранения гипотезы о роли фона зависит достоверность интерпретации та­кого эксперимента. Взять, к примеру, эксперимент, пре­дусматривающий повторные измерения для выяснения влияния документального фильма на оценку школьни­ками вероятности войны. Здесь отсутствие полного конт­роля над происходящими параллельно событиями будет иметь серьезные последствия, так как очевидно, что, помимо воздействий, контролируемых экспериментато­ром в классе, дети ежедневно подвергаются многим дру­гим, потенциально имеющим отношение к вопросу вой­ны и мира. Конечно, даже при таком изобилии неэкспе­риментальных воздействий, которые могут оказывать влияние на результаты опыта, возможна их правдопо­добная интерпретация, оправдывающая постановку дан­ного эксперимента. Как отмечалось выше, фактор фона порождает условия, противоположные тем, которые в физической или биологической лаборатории были бы названы экспериментальной изоляцией. Вероятность фоновых воздействий в качестве источника наблюдае­мого сдвига, вроде того, что мы находим на рис. 3 (кри­вые А и Б), в значительной мере зависит от степени экспериментальной изоляции, которую в состоянии обеспечить экспериментатор. Павловские исследования ус­ловных рефлексов у собак, по существу являющиеся экспериментами «на одной группе» или «на одном жи­вотном», не служили бы в такой мере подтверждению его теорий, если бы опыты велись не в звуконепро­ницаемой лаборатории, а на оживленном перекрестке. Что конкретно понимать под экспериментальной изоля­цией, зависит от изучаемой проблемы и от характера применяемой измерительной процедуры. Обеспечение экспериментальной изоляции при исследовании элемен­тарных частиц в камере Вильсона или счетчиками сцин­тилляций требует принятия более серьезных мер пред­осторожности, чем в воображаемом эксперименте с железным бруском, погружаемым в азотную кислоту. Во многих ситуациях, в которых применим план 7, экспериментатор мог бы с большой степенью уверенно­сти говорить о наличии экспериментальной изоляции в том смысле, что он знал, какие конкурентные события

могли бы обусловить наблюдавшийся эффект, и сумел существенно снизить вероятность их действия.

К фону можно из соображений удобства отнести влияние погоды и времени года. Так, при исследовании производительности труда рабочих может иметь место смешивание экспериментального фактора с сезонными изменениями в освещенности, погоде и т. д. Поэтому соответствующие эксперименты обычно проводятся в различное время года.

Пожалуй, легче всего контролировать действие цик­лических факторов фона, связанных с институциональ­ными обычаями в жизни группы (недельные циклы тру­да, выдачи зарплаты, периоды экзаменов, каникулы, школьные праздники), вызывающих периодические из­менения зависимой переменной. В известном смысле эти факторы близки фактору естественного развития. При проведении серии наблюдений нужно стремиться к тому, чтобы известные циклы оставались постоянны­ми или серия по длительности охватывала несколько таких циклов.

Продолжим анализ факторов, которые подлежат контролю. Естественное развитие, когда результаты наблюдений отвечают кривым А и Б на рис. 3, не может служить правдоподобным объяснением скачка, имевше­го место между O 4 и О 5, но отсутствовавшего в другие периоды времени. (Однако естественное развитие не всегда бывает гладким, регулярным. Так, внезапное наступление первой менструации у школьниц способно сместить значения физиологических показателей, созда­вая в случае плана 7 ложный экспериментальный эф­фект.) Точно так же не является допустимой конку­рентной гипотезой для скачка между O 4 и O 5 и влия­ние тестирования. Но, располагая, как в эксперименте по плану 2, только этими наблюдениями (в точках О 4 и O 5), мы не можем считать неправдоподобными эффекты естественного развития и тестирования. В этом большое преимущество данного плана перед пла­ном 2.

Аналогично для плана 7, в отличие от рассмотрен­ных ранее планов, возможные ссылки на инструменталь­ную погрешность будут лишены конкретных оснований, поскольку нет причин ожидать, что ошибка прибора будет иметь место именно в этом замере. Однако вопро-

сительный знак в табл. 2 требует обратить внимание на ситуации, в которых изменение калибровки средства измерения может быть неправильно истолковано как эффект X. Если в измерительной процедуре используются оценки, даваемые лицами, знакомыми с замыслом эксперимента, то может иметь место ложное подтверждение гипотезы из-за того, что испытуемые представляют себе, каковы должны быть ожидаемые результаты. Так, экспериментальное воздействие в виде назначения но­вого директора школы может повлиять на регистрацию нарушений школьной дисциплины, а не на число самих нарушений. При использовании плана 7 для определе­ния эффекта значительных изменений в административ­ной политике необходимо избегать одновременного пе­рехода к новой процедуре измерения. В большинстве случаев, чтобы сохранить возможность интерпретиро­вать результаты серии замеров, лучше бывает продол­жать использование устаревшей процедуры, а не пере­ходить к новой.

Эффект регрессии обычно выражается функцией с отрицательной второй производной по времени (negatively accelerated function) и поэтому не даст правдопо­добного объяснения большего эффекта O 5, чем в точке O 2, O 3 и O 4. Фактор состава экспериментальной груп­пы как источник главного эффекта отпадает так же, как и для эксперимента типа 2, если все замеры произво­дятся на одних и тех же лицах. Если данные по группе регистрируются в основном в индивидуальном поряд­ке, то, как и в плане 2, отпадает фактор выбывания из групп. Однако если наблюдения относятся к группе в целом, то необходимо параллельно регистрировать из­менения в составе группы, следя за тем, чтобы совпа­дения в изменении личного состава не давали основа­ний для конкурентной гипотезы.

Перейдем теперь к внешней валидности. Ясно, что экспериментальный эффект может быть характерен только для тех членов популяции, которые подвергают­ся повторной проверке. Это вряд ли составляет ограни­чение исследований в области школьного обучения, если эксперимент не включает процедуры тестирования (О), необычные для школьной обстановки. Более того, эксперимент данного типа обычно подходит для тех учреждений, в которых сбор и регистрация данных ве-

дутся постоянно и составляют естественную часть окру­жения. Годовые проверки уровня знаний в средних шко­лах, отметки о болезни и т. д. обычно не сопряжены с реакцией на эксперимент в том смысле, что они типич­ны для генеральной совокупности, на которую хотят распространить сделанные выводы. Взаимодействие между составом группы (отбором испытуемых) и X означало бы, что полученный эффект является особен­ностью данной выборки и что он не типичен для изучаемой генеральной совокупности, относительно ко­торой сформированная естественным путем эксперимен­тальная группа была бы смещенной выборкой. Так, спе­цифика данных может вынудить исследователя ограни­читься результатами только тех учеников, которые в течение долгого времени не пропустили ни одного обсле­дования, то есть явно отобранного подмножества. Кро­ме того, если использовались новые измерительные про­цедуры О, то повторные случаи этого могли провоциро­вать уклонение от обследований.

Если такие временные серии интерпретируются как эксперименты, важно, чтобы экспериментатор заранее уточнил, сколько времени должно пройти между введе­нием экспериментальной переменной и проявлением ее эффекта. При наличии этих данных форма кривой Г на рис. 3 будет почти столь же определенно указывать на наличие эффекта, как и кривая А. Массовые обследо­вания, в которых решения основываются на интерпрета­циях отсроченных эффектов, нуждаются в перекрестной валидизации. При увеличении времени отсрочки растет также вероятность появления эффектов, вызванных фактором фона.

Столь же важно, чтобы исследователь определил X еще до того, как он приступит к анализу временной серии. Попытки установить post hoc, какое X предше­ствовало наиболее значительному сдвигу, следует иск­лючить на том основании, что допускаемый при этом произвол затрудняет, а то и делает вовсе невозможным проверку значимости эффектов.

Преобладание экспериментов рассматриваемого типа в более успешных науках должно внушать определен­ное уважение к нему. Однако нам нужно помнить, что благодаря «экспериментальной изоляции» и «постоян­ству условий» там имеется больше возможностей для

интерпретации результатов. Следует также иметь в виду, что там никогда не делается вывод по данным одного эксперимента. План 7 воспроизводится в самых различных условиях разными исследователями, прежде чем устанавливается закон, хотя они могут никогда не обращаться к контрольным группам. Мы также долж­ны следовать этому правилу. Если лучший контроль невозможен, мы будем пользоваться этим планом экс­перимента. Нам нужно так организовать дело, чтобы получать как можно больше временных серий, и поста­раться более детально, чем раньше, изучить влияние административных изменений и других внешних внезап­ных и случайных событий в качестве X. Но результаты не будут считаться достоверными, пока они не будут многократно воспроизведены в различных условиях1.

План с эквивалентными


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: