Временными выборками

Эксперимент в его наиболее типичной форме предполагает использование эквивалентной выборки испытуемых, чтобы получить «базовую линию», с которой сравнивается действие экспериментальной переменной. В отличие от этого рекуррентная форма эксперимента с одной группой использует две эквивалентные выборки ситуаций, в одной из которых экспериментальное воздействие имеет место, а в другой — нет. Схема та кого эксперимента имеет следующий вид (хотя предпочтительнее случайное, а не регулярное чередование):

Х ₁ O X ₀ O Х ₁ O X ₀ O.

Этот эксперимент можно рассматривать как разновидность временной серии с повторным введением экспериментального воздействия. Достоинства такого экспери-

_________________________________________________________________________________

¹ В последнее время было разработано много приемов, которые могут быть использованы для статистической обработки результатов экспериментов по этому плану. См., например: B o x G. E. P., T i a o G. C. Intervention analysis with applications to economic and environmental problems. — «Journal of Amer. Statistical Association» 1975, v. 70, p. 70—92; B o x G. E. P., T i a o G. C. A change in level of a non-stationary time series. «Biometrica», 1965, v. 52, p. 181—192.

мента наиболее очевидны, когда ожидается, что эффект воздействия будет носить преходящий или обратимый характер. Хотя этот эксперимент может трактоваться как расширенный вариант временной серии, методика статистического анализа более сходна с обработкой результатов эксперимента, использующего две группы, в котором применяется критерий значимости различий между средними двух наборов измерений. Обычно изменения точно совпадают с экспериментальными воздействиями, часто сопутствуя им, как в исследованиях научения, производительности труда, выработки условных связей, физиологических реакций и т. д. Среди ранних примеров применения этого типа эксперимента, пожалуй, самыми типичными были исследования Олпорта [1] и Сорокина [105], в которых изучалась эффективность деятельности учащихся в различных условиях, причем сравнивалось не наличие и отсутствие экспериментального воздействия, а два различных экспериментальных воздействия, то есть Х ₁и Х ₂.В большинстве случаев простое чередование условий и использование постоянных промежутков времени нежелательны, особенно если имеется опасность смешивания эффекта X с влиянием дневных, недельных или месячных циклов или когда очевидная периодичность приводит к выработке нежелательной реакции на временной интервал, что в свою очередь может усилить различие между двумя воздействиями. Так, Сорокин позаботился о том, чтобы каждое из экспериментальных воздействий имело место с одинаковой частотой в утреннее и послеобеденное время.

В большинстве экспериментов, проведенных до сих пор по данному плану, каждое экспериментальное воздействие повторялось сравнительно небольшое число раз. Однако тип обобщения теории выборочного исследования, представленный в работе Брунсвика [9], заставляет обратить внимание на необходимость применения больших, репрезентативных и эквивалентных случайных выборок временных интервалов. Керр [63], по-видимому, очень близко подошел к этому идеалу в своих исследованиях влияния музыки на производительность труда в промышленности, В каждой серии, его опытов использовалась единственная экспериментальная группа и применялись рандомизированные выборки

дней в течение каждого месячного периода. Так, в одном эксперименте он сравнил 56 «музыкальных» дней с 51 днем без музыки, а в другом — влияние трех различных видов музыкальных произведений, каждый из которых был использован в эквивалентных выборках по 14 дней.

В том виде, в каком план 8 применялся Керром, он в целом представляется внутренне валидным. Фактор фона, самое слабое место временной серии, контролируется благодаря предъявлению X в большом числе отдельных случаев, что делает крайне малоправдоподобным любое конкурентное объяснение результатов за счет одновременного действия побочных явлений. Другие источники невалидности находятся под контролем в силу тех же соображений, которые были подробно приведены для плана 7. Что касается внешней валидности, то обобщение возможно только по отношению к часто обследовавшимся популяциям. Реакция испытуемых на эксперимент, осведомленность об экспериментировании — особенно уязвимое место данного плана. Если отдельные воздействия X применяются последовательно к различным группам, то испытуемые (особенно в плане 6) могут даже не подозревать, что проводится опыт и сравниваются различные воздействия. Иное дело, если исследуется одна-единственная группа, для которой повторно создаются те или иные условия — например, применяется то один, то другой способ расчета зарплаты, как в опытах Сорокина; или то одни, то другие условия работы, как у Олпорта; или то один, то другой вид вентиляции (Wyatt, Fraser, Stock [138]; или то один, то другой музыкальный жанр (хотя Керр принял меры предосторожности, чтобы разнородная программа стала естественной составной частью рабочего окружения). Что касается взаимодействия состава групп с X, то здесь, как и обычно, существуют ограничения в распространении обнаруженного эффекта на всю популяцию.

В плане 8 кроется риск для внешней валидности. Его можно обнаружить во всех тех экспериментах, упоминаемых в данной работе, в которых на одной и той же группе испытывается действие нескольких уровней X. Этот эффект был обозначен как «межуровневая интерференция X». Эффект X ₁, который в простей-

шем случае сравнивается с действием Х ₀,может быть распространен только на условия повторного и разделённого промежутками времени предъявления Х ₁. Нет оснований распространять его на возможные ситуации непрерывного действия Х ₁или на случаи, когда Х ₁ появляется один-единственный раз. Кроме того, условие Х o, то есть отсутствие X, не типично для периодов отсутствия X вообще. Оно репрезентативно только для отсутствия X, перемежающегося с его наличием. Если Х ₁обладает некоторым последействием, распространяющимся на периоды без X, как это обычно представляется вероятным, применение плана 8 может привести к недооценке эффекта Х ₁в сравнении, скажем, с планом 6. Кроме того, сам факт частых изменений может увеличить значение X как стимула по сравнению с тем, что было бы при непрерывном, гомогенном воздействии. Гавайская музыка в опытах Керра могла бы совсем по-иному влиять на работу испытуемых, если бы она не перемежалась с другими жанрами, а составляла постоянный «музыкальный рацион». Эксперименты Эббингауза [32], очевидно, в основном принадлежат к этому типу, и, как отмечал Андервуд [128], установленные им законы распространяются только на тех, кто усвоил десятки других весьма сходных списков. Многие из его результатов фактически недействительны для людей, запоминающих единственный список бессмысленных слогов. Таким образом, хотя этот план эксперимента внутренне валиден, его внешняя валидность значительно ограничена некоторыми типами содержания (см. также Kempthorne [58, гл. 29]).

Отметим, однако, что действие многих факторов школьного обучения, представляющих интерес для экспериментального исследования, во всех практически важных отношениях ограничено временем фактического присутствия X. В таких случаях данная схема может оказаться весьма ценной. Предположим, что учитель стремится выяснить значение чтения вслух по сравнению с индивидуальным чтением про себя. Применяя в серии уроков то один, то другой способ, он может провести эксперимент, результаты которого поддаются интерпретации. Этим путем можно исследовать и эффект присутствия кого-либо из родителей в классе во время добровольной дискуссии учеников. Знание такого плана

сделает экспериментальную проверку альтернатив доступной для учителя. Это позволит проводить пробные испытания методик, которые в случае положительного исхода могут быть исследованы посредством более обширных и более скоординированных экспериментов.

Этот подход может быть применен в отношении выборок ситуаций при исследовании одного испытуемого. Примером может служить рекуррентный план эксперимента, реализуемый (обычно без проверки статистической значимости) в физиологических исследованиях, в которых животному повторно предъявляют стимулы, стремясь избежать какой бы то ни было периодичности стимуляции, что соответствует требованию рандомизации, следующему из логики эксперимента. Вместо простой рандомизации могут также быть использованы латинские квадраты (см., например, Cox [26]; Maxwell [73]).

Проверка значимости для плана 8

Для данного конкретного типа эксперимента нам опять необходима соответствующая процедура проверки статистической значимости экспериментального эффекта. Отметим, что предполагается два типа обобщения: по ситуациям и по испытуемым. В случае если используется лишь один испытуемый, проверка значимости эффекта, очевидно, будет ограничена обобщениями в отношении только данного индивида и будет предполагать обобщение ситуаций (реализации X). Для этой цели подходит t -критерий с числом степеней свободы, равным числу ситуаций (реализаций) минус 2. При наличии индивидуальных результатов по ряду испытуемых, которым как членам одной группы предъявлялось одно и то же экспериментальное воздействие, данные позволяют осуществить обобщение в отношении испытуемых. В этой ситуации обычно применяются две стратегии. Ошибочная стратегия состоит в получении для каждого испытуемого по одному численному результату при каждом воздействии и затем в проверке значимости различий между средними, при использовании коррелированных данных. Этой логике следовали Олпорт и Сорокин, хотя они фактически не прибегали к проверке значимости эффекта. Но если каждая экспериментальная ситуация воспроизводится всего один или

два раза, ошибка выборки по ситуациям может быть весьма значительной или контроль фоновой стимуляции может оказаться весьма слабым. И то, что при таком способе анализа будет представляться значимым различием, в какой-то мере может быть вызвано случайными ошибками выборки. Такая ошибка станет весьма серьезной, если велик и статистически значим обучающий эффект тестирования. Так, согласно этой логике можно получить весьма значимые различия между Х ₁и Х ₂, когда каждое из этих воздействий применялось только однажды и когда одно из них совпало с появлением побочной стимуляции, оказавшей заметное влияние на результат. Поэтому важно, чтобы каждое воздействие (Х ₁и Х ₂ ) имело по крайней мере две реализации и тем самым были представлены степени свободы случаев (ситуаций), сгруппированных по данному воздействию. Это требование, вероятно, легче всего удовлетворить путем первоначальной проверки значимости различия между средними для обоих воздействий, сравнивая ее с величиной ошибки реализации каждого воздействия. Установив таким путем значимость эффекта экспериментального воздействия, можно определить, для какой части испытуемых он имеет место, и тем самым получить сведения о воспроизводимости (обобщаемости) эффекта на разных испытуемых. Повторные измерения и использование выборок ситуаций ставят на повестку дня многие статистические проблемы, часть которых все еще не решена (Collier [24], Cox [26], Kempthorne [58]).

План с сериями

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: