Способы повышения обоснованности выводов о причинно-следственных связях

 

По результатам корреляционного исследования нельзя с уверенностью говорить о характере причинно-следственных связей. Однако есть методы повышения обоснованности выводов о любых причинных воздействиях. В этом разделе мы рассмотрим некоторые из подобных методов.

Первая стратегия основана на простом здравом смысле, однако стоит того, чтобы о ней упомянуть. В некоторых случаях одно из направлений причинного воздействия исключается самим характером переменных. Предположим, мы обнаружили положительную корреляционную связь между ростом ребенка и уровнем

агрессии. Вполне допустимо, что рост ребенка каким-то образом влияет на уровень агрессии (хотя нам все еще необходимо было бы уточнить, как именно). Однако вряд ли уровень агрессии оказывает какое-либо причинное воздействие на рост ребенка. В таких случаях нужно принимать во внимание всего две гипотезы: А является причиной В или С является причиной A и В. Возможность влияния В на A не учитывается.

Подход с точки зрения логики используется в вопросах, касающихся направления причинно-следственных связей между А и В. Второй метод особенно эффективен для исключения третьего фактора С. При этом пользуются аналитической процедурой, которая называется методом парциальной корреляции. Частичная корреляция — это процедура, направленная на статистическое устранение действия одной переменной на корреляционную связь между двумя другими-переменными. По существу, метод частичной корреляции заключается в сохранении неизменной потенциально значимой третьей переменной в процессе анализа связи между двумя другими переменными. Это равноценно изучению отношений между А и В в выборке, где все имеют одинаковые показатели по параметру С. Вопрос, разумеется, состоит в том, остается ли значимой связь между А и В при отсутствии влияния С.

Предположим, мы обнаружили положительную корреляционную связь между просмотром телепрограмм с эпизодами насилия и уровнем агрессии, однако подозреваем, что эту связь в действительности обусловливает некий третий фактор, к примеру методы воспитания. Допустив, что мы можем получить приемлемую оценку способов воспитания, мы могли бы использовать метод частичной корреляции для устранения влияния воспитания на корреляционную связь «просмотр телепрограмм — агрессия». Обнаружив, что корреляция остается на том же или примерно на том же уровне, какой она была изначально, мы могли бы заключить, что способ воспитания не является значимым фактором, привносящим смешение. И наоборот, резкое снижение корреляции свидетельствовало бы о наличии существенной доли воспитания в связи между просмотром агрессивных телепрограмм и агрессивным поведением.

Хотя процедуры и различаются, цель использования метода парциальной корреляции та же, что и цель метода уравнивания, описанного ранее в этой главе. В обоих случаях исследователь стремится устранить факторы, вносящие смешение, приводя их к одному уровню для всех сравниваемых групп. При уравнивании приведение к одному уровню осуществляется до проведения процедуры исследования путем включения испытуемых в разные группы; при парциальной корреляции оно осуществляется после процедуры исследования путем статистического исключения факторов, приводящих к смешению. И уравнивание, и частичная корреляция имеют общее ограничение: с их помощью нельзя устранить все возможные факторы, приводящие к смешению. Иными словами, существует масса переменных С, и ни одному исследователю не измерить и не проконтролировать их все.

Процедуры третьего типа, предназначенные для вычленения информации о причинно-следственных связях из корреляционных данных, так или иначе связаны с временными отношениями между переменными. Эти процедуры строятся на факте необходимого предшествования причины следствию. Поэтому, составив схему изменений отношений A и В во времени, мы сможем ближе подойти к решению вопроса о том, А приводит к В или наоборот.

 

Рис. 3.5. Корреляции между переменными в плане перекрестных корреляций с лагом

 

Наиболее трудоемкой формой временного анализа является процедура, называемая перекрестной корреляционной группировкой с лагом (Campbell & Stanley, 1966). Она требует лонгитюдного подхода, при котором по крайней мере две переменные измеряются два или более раз за определенный период времени. Такое исследование дает возможность вычислить ряд коэффициентов корреляции как в рамках одного периода, так и между периодами. На рис. 3.5 представлены варианты корреляций в исследовании с двумя переменными и двумя моментами измерения (г-коэффициенты корреляции). Таким образом, можно узнать коэффициент корреляции между Л и В и в момент 1, и в момент 2; стабильность Л и В во времени; и, что наиболее важно, межвременные коэффициенты корреляции между A и В -~ то есть корреляции, изображенные по диагоналям. Для определения направления причинного воздействия в паре Л и В необходима информация именно по диагонали. Если причинный фактор это Л, то следует ожидать значительной корреляции между A в момент 1 и В в момент 2 — изменения в причине должны приводить к изменению эффекта. Коэффициент корреляции между В в момент 1 и Л в момент 2 должен быть существенно ниже. И наоборот, если причинный фактор — В, следует ожидать более высокого коэффициента корреляции между В1 и A2, и более низкого — между A1 и В2.

Наверное, проще всего разъяснить вышесказанное на практическом примере. Лефковитц, Эрон, Уолдер и Хьюсман (Lefkowitz, Eron, Walder & Huesmann, 1972) использовали метод перекрестных корреляций, изучая связь насилия на телеэкране и агрессии (см. также Huesmann, Lagerspetz & Eron, 1984). Они измерили параметры просмотров телепрограмм и оценили уровень агрессии у 3-классников, а затем у них же (у тех, кого удалось привлечь к повторному обследованию) и те же параметры 10 лет спустя. Результаты для мужской половины выборки представлены на рис. 3.6. Обратите внимание: ничто не подтверждает гипотезу о том, что склонность к агрессии ведет к предпочтению телепрограмм с эпизодами насилия;

коэффициент корреляции между уровнем агрессии в момент 1 и просмотром агрессивных телепередач в момент 2 по существу нулевой. Однако есть свидетельства в пользу противоположной гипотезы, поскольку просмотр агрессивных телепередач в момент 1 тесно связан с агрессией в момент 2.

 

Рис. 3.6. Корреляции между предпочтением определенных телепрограмм и агрессией в перекрестном корреляционном исследовании с лагом. (М М. Lefkowitz, L. D. Eron, L. D. Walder, & L. R. Huesmann, 1972, Television and Social Bahavior, Vol. 3)

 

Следует отметить, что исследование Лефковитца и др. было описано исключительно в качестве примера перекрестной группировки с лагом. В действительности это исследование и сделанные на его основе выводы можно подвергнуть критике по ряду пунктов (Freedman, 1984). В целом, перекрестное исследование с лагом, хотя и выглядит довольно простым в том виде, в котором оно здесь рассмотрено, связано с рядом сложностей и зависит от некоторых статистических допущений. Неизвестно, как часто эти допущения соответствуют действительности и, следовательно, насколько обосновано применение данного метода. Рогоса (Rogosa, 1980) аргументированно критикует попытку сделать выводы о причинности посредством перекрестного анализа.

Рассмотрение последнего метода повышения обоснованности заключений о причинно-следственных связях поможет уяснить один из базовых принципов методологии исследования. Иногда есть возможность дополнять корреляционный анализ экспериментальным изучением того же вопроса. Иными словами, можно изменить предположительную причину и оценить воздействие данных манипуляций на зависимую переменную, таким образом, создавая реальную связь между зависимой и независимой переменными. Как уже отмечалось, в литературе, посвященной теме насилия на телеэкране, содержится описание ряда подобных экспериментальных исследований, в которых оценивается эффект манипуляций со временем и характером телепрограмм. В этих исследованиях осуществляется контроль, отсутствие которого является недостатком корреляционного плана. Наличие переменной Л, подвергающейся экспериментальным манипуляциям, снимает неопределенность в отношении направления причинного воздействия в паре А и В — изменения В должны быть обусловлены изменениями Л, а не наоборот. А поскольку мы контролируем не только нашу независимую переменную, но и другие факторы, никакая третья переменная Сне.может вносить смешение в отношения между Л и В. Поэтому наши выводы о причинно-следственных связях будут более обоснованны.

Принцип, который иллюстрирует этот пример, касается значимости конвергентных операций при исследовании комплексных, сложных для изучения объектов. Термин конвергентные операции (другое название - мультиметодический подход — например, Brewer & Hunttjr, 1989) означает использование, либо в рамках одного, либо в рамках ряда исследований, разнообразных методов изучения определенного вопроса (игнорирование этого принципа — использование только одного метода ставит под угрозу валидность, что Кук и Кемпбелл, 1979, обозначили как монометодическое искажение). Основная мысль заключается в том, что слабые стороны одного метода могут, по крайней мере, отчасти, компенсироваться сильными сторонами другого и что выводы, основанные на совмещении результатов, полученных с помощью разных методов, более достоверны, чем выводы, полученные при помощи только одного метода. Этот довод, несомненно, касается и вопроса о взаимосвязи насилия на телеэкране и агрессии. Здесь для выявления причинно-следственных связей единственно верным способом является эксперимент; в то же время экспериментальное исследование страдает рядом недостатков (искусственность, эффект реактивности и т. д.), которые ставят под сомнение его внешнюю валидность. В корреляционных планах удается избежать множества погрешностей исследований с использованием манипуляций; однако, как мы увидели, корреляционное исследование по существу не может дать информации об отношениях между причиной и следствием. Именно в связи с этими ограничениями каждого из методов в отдельности необходимо совмещение результатов использования разнообразных методов. Поэтому корреляционные исследования влияния телевидения дают нам возможность с большей уверенностью говорить о том, что влияние сцен насилия на телеэкране, продемонстрированное в экспериментальных условиях, существует и в реальной жизни. Аналогично тот факт, что экспериментальное изменение характера просмотра телепрограмм отражается на уровне агрессии детей, дает нам право утверждать, что телевидение действительно является причиной в корреляционной паре телевидение—агрессия.

 

Резюме

 

В этой главе рассматриваются три темы, попадающие в разряд исследовательского плана: сравнение возрастных групп, сравнение экспериментальных условий и различие между экспериментальными и корреляционными планами с особым акцентом на вопросе корреляции и причинности.

При изучении разных возрастных групп чаще всего используются два плана: лонгитюдный план и план поперечных срезов. В лонгитюдном исследовании на протяжении определенного периода времени регулярно обследуются одни и те же испытуемые. Только этот подход дает возможность измерить непосредственно возрастные изменения, а не возрастные различия. Это также единственный способ изучения индивидуальной стабильности или изменчивости во времени. Но с другой стороны, лонгитюдное исследование требует больших затрат времени и усилий, что, несомненно, объясняет относительно редкое его использование. Лонгитюдное исследование также приводит к ряду систематических ошибок. К ним относят избирательный отсев испытуемых в ходе исследования, эффект тестирования, обусловленный повторным тестированием с использованием одних и тех же методик, и неизбежное смешение возраста испытуемого и времени тестирования.

В исследовании методом поперечных срезов изучаются разные испытуемые разных возрастов. Этот подход, как правило, экономичнее лонгитюдного; с его помощью можно избежать множества проблем лонгитюдного исследования, он вполне пригоден для изучения ряда тем. Однако поперечные планы имеют и недостатки. Поскольку все испытуемые обследуются только по одному разу, невозможно оценить непосредственно возрастные изменения. Возрастное сравнение также затрудняет систематическая ошибка отбора при формировании возрастных групп, а также избирательный отсев испытуемых из исследования. Еще одна проблема, характерная как для лонгитюдных, так и для поперечных планов, — проблема эквивалентности измерений отбор методик, равноценных для сравниваемых возрастных групп. Наконец, в поперечных планах неизменно возникает смешение между возрастом испытуемых и поколением, или когортой, к которым они принадлежат.

Недостатки классических лонгитюдного и поперечного методов обусловили, разработку альтернативных планов. В плане с временным лагом при изменении параметров поколения и времени измерения неизменным сохраняется возраст испытуемых. При помощи такого плана можно оценить значение факторов, которые в традиционных планах смешиваются с возрастом. Более трудоемки последовательные планы, сочетающие элементы лонгитюдного исследования, исследования методом поперечных срезов и плана с временным лагом. Последовательные планы, несомненно, информативнее; они, однако, требуют и больших затрат, при этом не устраняя все возможные источники смешения.

Второй раздел главы посвящен планам сравнения разных заданий или экспериментальных условий. Существует два основных подхода: виутрисубъектный в котором каждый испытуемый выполняет все задания (или находится во всех типах экспериментальных условий); и межсубъектный, при котором разные испытуемые должны выполнять разные задания (или находиться в разных условиях). Внутрисубъектное исследование, как правило, более экономично, статистически более достоверно и позволяет избежать ряда затруднений (например, систематической ошибки отбора), с которыми может столкнуться межсубъектное исследование. Внутрисубъектный подход незаменим для изучения внутригрупповых взаимосвязей и закономерностей. Межсубъектный подход, в свою очередь, позволяет избежать ряда проблем внутрисубъектного исследования — в частности, эффектов последовательности и переноса, обусловленных повторным тестированием. Межсубъектный подход незаменим в том случае, когда экспериментальное воздействие призвано произвести некоторые стойкие изменения.

Затем были рассмотрены конкретные варианты межсубъектных и внутрисубъ-ектных исследований. В плане уравненных групп параметры испытуемых приводятся в соответствие до приписывания их к разным экспериментальным условиям. Преимуществом уравнивания является то, что оно обеспечивает эквивалентность групп по переменным (например, IQ), которые могли бы повлиять на результаты. К недостаткам этого метода относятся увеличение затрат времени и усилий, искажающее влияние предварительного тестирования, более высокий уровень выбывания испытуемых, обусловленный необходимостью исключать всех подобранных по одному признаку при выбывании любого из них, а также вероятность того, что приведение в соответствие по одному параметру будет систематически нарушать соответствие между другими переменными. В плане временных серий экспериментальное воздействие применяется периодически, при этом регистрируются изменения в поведении как функция от наличия или отсутствия воздействия. Такой вид исследования чаще всего проводится в клинике или в условиях учебных заведений, зачастую в форме исследования с одним испытуемым.

Главу завершает рассмотрение корреляционного исследования. В корреляционном плане независимые переменные не контролируются; измеряются две или более переменные и оценивается степень их совместной изменчивости. Корреляционный план — единственно приемлемая форма исследования, если изучаются переменные, манипулирование которыми невозможно или затруднительно. Кроме того, корреляционное исследование способно охватить более широкий диапазон уровней переменной. С другой стороны, отсутствие экспериментального контроля подразумевает невозможность корреляционного исследования дать информацию о причинно-следственных связях. К методам, используемым для снижения неопределенности и для уточнения характера причинно-следственных связей, относят логический анализ возможных направлений причинности; частичную корреляцию, при которой статистически устраняется влияние третьих факторов; перекрестную корреляционную группировку с лагом, в которой оцениваются корреляционные связи во временной перспективе; и экспериментальные манипуляции с одной из переменных.

 

Упражнения

 

Одна из тем этой главы — трудность разграничения эффектов возраста и эффектов когорты, или поколения. Возьмите в качестве примера когорту, к которой вы принадлежите. Есть ли что-нибудь в вашем жизненном опыте, что отличало бы его от опыта представителей других поколений? Какого рода эффект могло бы иметь это различие при сравнении методом поперечных срезов?

Один из способов анализа последовательных планов — представить отдельные результаты и подумать, что они могли бы значить. Проанализируйте изображенный ниже план последовательности когорт (рис. 3.7). Зависимая переменная — это IQ, Допустим, что средние значения IQ для разных групп колеблются в пределах от 90 до НО. Для каждого из нижеследующих результатов продумайте способы выявления: а) эффектов только возраста; б) эффектов только когорты; в) эффектов возраста и времени измерения.

 

 

Рис. 3.7. План последовательности когорты

 

В этой главе подчеркнуты как достоинства, так и недостатки лонгитюдного исследования. Одним из альтернативных подходов к изучению стабильности/изменчивости во времени является ретроспективный метод. Ретроспективный метод предполагает анализ прошлого, обычно взрослых людей, обладающих интересующими исследователя качествами, попытку выявить существенные предпосылки или определяющие факторы раннего развития, которые обусловили имеющийся результат. Очевидная трудность в этой ситуации — получение точных данных о прошедших событиях. Выберите какой-либо значимый опыт из своего прошлого — успехи в школе, к примеру, или отношения с друзьями, или путешествия вместе с семьей. Восстановите по возможности наиболее точно картину развития на определенном отрезке периода детства. Попросите сделать то же самое своих родителей и сравните ваши воспоминания. Если есть возможность, сравните оба рассказа с объективными свидетельствами (например, табелем успеваемости, семейным фотоальбомом).

Как отмечалось в тексте, корреляция между переменными Л и В может интерпретироваться несколькими способами: Л является причиной В, В является причиной Л, некоторый третий фактор С является причиной Л и В, или сочетание всех этих вариантов. Ниже представлено несколько примеров положительных корреляций, полученных в реальных исследованиях. Для каждого: а) предложите как можно больше правдоподобных объяснений; б) перечислите, какие данные помогли бы вам выбрать из возможных объяснений:

• использование родителями физического наказания и агрессия ребенка;

• разъяснение родителями норм поведения и просоциальное поведение ребенка;

• физическая привлекательность и популярность;

• IQ и школьная успеваемость;

• представление о себе как об учащемся и школьная успеваемость;

• уровень активности и умственная сохранность в пожилом возрасте.

 

Глава 4

 

Измерение

 

Б главе 2 было рассмотрено кардинальное различие между независимой и зависимой переменными: независимая переменная — это тс факторы, которые мы контролируем; зависимая переменная — это то, что мы измеряем на выходе. Большая часть главы 3 «План» была посвящена первому из этих понятий — разнообразным способам создания независимых переменных и их сочетанию. В этой главе акцент будет смещен с независимой на зависимую переменную: на способы измерения результатов исследовательского процесса.

Измерение — это большая тема; в ходе изложения материала мы будем периодически к ней обращаться. В частности, главы, посвященные специфическим видам исследования (главы 10-13), содержат достаточный объем информации о том, как измерять конструкты, наиболее интересные для специалистов в области психологии развития. Цель этой главы — лишь познакомить с некоторыми базовыми принципами измерения — принципами, к которым мы по необходимости будем возвращаться и которые будем конкретизировать.

Структура этой главы следующая. В первом разделе вводится ряд базовых понятий, необходимых для понимания измерения, к примеру, понятие операционального определения, а также такие основополагающие понятия, как надежность и валидность измерения. Оставшаяся часть главы посвящена двум важнейшим формам измерения: стандартизованным тестам для оценки определенных психологических качеств и методам обсервативной оценки поведения. Рассматривая эти типы измерения, мы обсудим еще ряд общих принципов.

 

Базовые понятия

 

Как и ранее, многие принципы будут рассмотрены на конкретном примере, что облегчит их понимание. Он относится к области, о которой уже не раз говорилось: насилие на телеэкране и агрессия. Либерт и Бэрон (Liebert & Baron, 1972) использовали для изучения этого вопроса экспериментальный план, показывая половине своих испытуемых (5-9-летним детям) сцены из агрессивного фильма (3,5-минутный ролик из «Неприкасаемых»), а другой половине — ролик нейтрального содержания, после чего сравнивали уровень агрессии в обеих группах. Агрессия

оценивалась по множеству критериев, но один из них служил основой для большинства выводов; на нем мы и сосредоточимся. После просмотра детей сажали перед пультом с двумя кнопками: красная кнопка означала «боль*, а зеленая — «помощь». От пульта через отверстие в стене шли провода, и детям сообщали, что пульт подключен к игровому автомату, с которым в соседней комнате будет играть другой ребенок. По правилам игры нужно было поворачивать рычаг, а связь пульта с автоматом позволяла испытуемым воздействовать на ход игры: нажатие на кнопку «помощь» облегчало поворот рычага, а нажатие на кнопку «боль» делало рычаг горячим, таким образом затрудняя игру. Затем следовала серия попыток, когда ребенок мог нажимать на любую из кнопок столько, сколько захочет. Предстояло выяснить, будут ли дети, которые смотрели ролик с эпизодами насилия, проявлять большую агрессию, дол вше и чаше нажимая на кнопку «боль». Именно это и произошло: длительность нажатия кнопки «боль» у детей из группы, смотревших агрессивный ролик, была почти на 50 % больше, чем у детей, смотревших ролик нейтрального содержания. Таким образом, результаты подтвердили предположение о том, что просмотр детьми агрессивных телепрограмм ведет к повышению агрессии. (Добавим лишь то, о чем вы, вероятно, уже догадались: в соседней комнате не было никакого ребенка.)

 

Операционализация

 

Рассмотрим два способа подведения итогов по результатам исследования Либерт и Бэрона: «Просмотр детьми телепрограмм с эпизодами насилия повышает их агрессивность» и «Просмотр детьми 3,5-минутпого ролика, составленного из отрывков фильма "Неприкасаемые" в лабораторных условиях повышает вероятность того, что пять минут спустя дети будут нажимать кнопку, нажатие на которую будто бы приводит к болезненным ощущениям ребенка, находящегося в соседней комнате и не видимого для испытуемого». Очевидно, что первое утверждение представляется более интересным и обобщенным. Однако второе — более точно, так как описывает именно то, что было проделано и обнаружено, тогда как первое утверждение — это общий вывод, выходящий за рамки фактических данных.

Два указанных выше способа подведения итогов в исследовании Либерт и Бэрона демонстрируют существенное различие между выводами, которые хочет сделать исследователь, и конкретными манипуляциями и измерениями, которые он проделывает. «Насилие на телеэкране» и «агрессия», несомненно, интересные конструкты, стоящие того, чтобы их изучать. Таковы и многие другие вещи, которые изучают специалисты в области психологии развития — интеллект, креативность, Я-концепция, половая типизация. Проблема заключается в том, что интеллект и креативность, в действительности, не «вещи», непроизвольно и непосредственно наблюдаемые; прежде чем изучать, их нужно неким образом операционализироватъ

 — то есть перевести в специфическую, измеряемую форму, а любое измерение требует превращения общих понятий в специфические.

От глагола операциоиализировать образуется существительное — операциональное определение. Понятие операциональное определение впервые появилось в 20-х годах XX века в работах физика П. У. Бриджмена (P. W. Bridgemen). Операциональное определение — это определение переменной в терминах операции, используемых для создания или измерения этой переменной. Так, температуру можно определить как перемещение ртути внутри определенного вида емкости.

Интеллект можно определить как успешность выполнения заданий теста Стэнфорд-Бине, агрессию можно определить по параметрам, указанным во втором из итоговых заключений. Во всех случаях налицо привязка к используемым на практике измерительным операциям.

При узком толковании операционализация предполагает, что исследователь, делая выводы об изучаемых переменных, не выходит за рамки операций, использовавшихся для их создания или измерения. Фактически сегодня мало кто из исследователей придерживается столь буквального понимания операционализации. Тем не менее, операционализм оказал значительное и благотворное влияние на психологическую науку. Он установил общепринятую схему, в границах которой решается задача измерения. Основной принцип этого подхода заключается в требовании четкости определения, объективности измерительных операций и их воспроизводимости любым исследователем в любой, соответствующим образом оборудованной лаборатории.

Рассмотрим, как может происходить перевод теоретического конструкта в конкретные измеримые параметры для исследователя и для тех, кто читает исследовательские отчеты. Возьмем, к примеру, обсервативное исследование агрессии в детском саду. Исследователя интересует вероятность того, что социальное подкрепление способствует агрессивному поведению в обстановке детского сада. Первая задача исследователя состоит в выборе операционального определения каждого из этих довольно глобальных конструктов. Поскольку любой из них операционализируется множеством способов, из совокупности свойств данных конструктов нужно выбрать ограниченное число конкретных параметров. Наш исследователь, к примеру, может определить социальное подкрепление как набор неких вербализаций (например, «хорошо», «о'кей»), неких выражений лица (например, адресованная ребенку улыбка) или определенного рода невербальное поведение (например, похлопывание по плечу, объятия). Агрессию можно определить как набор разнообразных физических актов (например, удары, пинки, щипки), направленных на причинение вреда другому человеку. Каковы бы ни были выбранные параметры, задача исследователя состоит в проведении максимально точных измерений, в описании именно того, что было сделано.

Перед тем, кто в итоге будет знакомиться с исследовательским отчетом, тоже стоит определенная задача. Он должен, прежде всего, осознать, что такие конструкты, как социальное подкрепление и агрессия, могут иметь множество операциональных определений и что какое-то одно исследование неизбежно будет включать лишь часть возможных определений. Это означает, что используемые операциональные определения не обязательно будут согласовываться с тем, что читатель сам вкладывает в понятия социального подкрепления и агрессии, и что определения не обязательно будут согласовываться с теми определениями, которые читатель встречал в других исследовательских отчетах по этой проблематике. Таким образом, читатель должен отбросить, по крайней мере на какое-то время, составленные ранее представления и сосредоточиться на том, что действительно было осуществлено в рассматриваемом исследовании. Тогда он сможет прийти к заключению, что операциональные определения разумны и достаточны, либо что они по тем или иным причинам неадекватны. К примеру, в категорию социального подкрепления следует включить лишь заботу о ребенке, а также очевидные позитивные поведенческие проявления, такие как улыбка и похвала. В категорию агрессии следует включить вербальные, а не только физические действия. Возможно, одно из наиболее важных качеств, которые должен развить у себя читатель психологической литературы, — это способность выйти за пределы гладких выводов из «Реферативных журналов» и «Актуальных вопросов...» (например, социальное подкрепление приводит к повышению уровня агрессивности) с тем, чтобы оценить исследование в терминах использованных в нем на практике операций. Если эти операции не отвечают определенным требованиям, общие выводы вряд ли можно считать бесспорными.

 

Квантование

 

Для измерительной системы характерен переход от глобального к специфическому. Еще одним ее свойством является квантование. По словам одного из создателей теории измерения С. С. Стивенса (S. S. Stevens), «измерение — это численное выражение определенных аспектов объекта в соответствии с тем или иным правилом» (Stevens, 1968, р. 850). Однако числа и правила могут носить разный характер, в зависимости от используемых форм измерения. Соответственно изменяются и выводы, которые можно сделать на основе полученных результатов.

Типы величин определяют так называемые уровни, или шкалы измерения. Вслед за Стивенсом (например, Stevens, 1968) ученые традиционно выделяют четыре уровня измерения. Каждый уровень выполняет базовые функции любой системы измерения, то есть результатом каждого измерения является некая величина, а полученные величины позволяют разграничить результаты всех измерений. Однако происходит это по-разному.

Наиболее простая из систем измерения — номинальная шкала. Номинальная это то же, что «именующая» — придающая некоторое качественное значение каждому результату измерения. Предположим, вас интересует, какие игрушки нравятся дошкольникам. Вы предлагаете каждому ребенку четыре игрушки и просите выбрать ту, с которой ему больше всего хотелось бы поиграть. Измерение состоит в регистрации того, какая из игрушек была выбрана. Измерение в этом случае номинативное, поскольку вы даете «имя» каждому ответу. Конечно, вы можете превратить названия в числа — к примеру, записать 1, когда выбор падает на грузовик, 2, когда оказывается предпочтение медвежонку, и т. д. Эти числа, однако, будут выполнять функцию наименований, не имея какого-либо количественного значения. Данный факт является отличительной особенностью номинативных шкал: они позволяют классифицировать по качеству, но не по количеству.

Рассматривая второй уровень измерения, можно возвратиться к примеру с агрессией. Предположим, мы попросили воспитателя проранжировать детей по степени агрессивности каждого из них в игровой комнате. Мы использовали рейтинговую шкалу, имеющую пять позиций: от «крайне агрессивного» до «умеренно агрессивного» и от «умеренно агрессивного» до «совершенно неагрессивного». Системой измерения служила порядковая шкала, поскольку мы располагали результаты наблюдений по их величине. В этом случае, в отличие от случая использования номинативной шкалы, результаты измерений имеют количественную размерность, а измерение служит для определения порядковой позиции каждого из результатов. Поэтому можно сказать, что «крайне агрессивный» ребенок агрессивнее «умеренно агрессивного», который, в свою очередь, агрессивнее «совершенно неагрессивного» — или что пятая категория действительно больше третьей, которая, в свою очередь, больше первой. Заметьте, однако, что все еще нельзя говорить о масштабах различий. Мы не знаем, к примеру, является ли разница между пятой и третьей позицией такой же, как разница между третьей и первой. Не вправе мы конечно и утверждать, что ребенок, попавший в пятую категорию, в пять раз агрессивнее ребенка, попавшего в первую. Все, о чем можно говорить, — это о порядке.

Данное ограничение снимается в третьей шкале, интервальной. В интервальной шкале точки деления не только упорядочены, но и равноудалены друг от друга. Характерный (хотя и не психологический) пример — шкала термометра. Температурные показатели, несомненно, упорядочены: 40° теплее, чем 30°, а 30° теплее, чем 20°. Более того, точки деления на термометре расставлены равномерно. Поэтому мы можем утверждать, что разница между 40° и 30° точно такая же, как и разница между 30° и 20° (в физическом, если не психологическом смысле). Как было сказано выше, такого рода количественная точность невозможна на порядковой шкале.

Однако интервальная шкала все же имеет одно ограничение: на ней нет истинного нулевого деления. На термометре, конечно, есть ноль, однако ноль на шкале термометра — это произвольная точка, с обеих сторон которой имеются другие значения, а не действительно нулевой уровень. Это не подразумевает полного отсутствия измеряемых характеристик. Измерительные шкалы, отвечающие всем критериям интервальных шкал и, кроме того, содержащие истинный ноль, называют шкалами отношений. Характерным примером шкал отношений могут служить системы измерения таких физических параметров, как высота или вес.

Шкала весов включает не только равные интервалы между значениями веса, но и истинный ноль, то есть отсутствие веса на весах. Наличие нулевой точки на шкалах отношений позволяет делать выводы о пропорциях, что невозможно при использовании интервальных шкал. К примеру, можно сказать, что 40 фунтов в 2 раза тяжелее 20 фунтов. Но нельзя сказать, что 40° в 2 раза теплее 20°.

Уровень измерения — один из факторов, определяющих выбор статистических критериев. К вопросу об измерительных шкалах мы вернемся в главе 7, посвященной статистике.

 

Аспекты измерения

 

До сих пор мы акцентировали внимание в основном на необходимости осуществлять выбор при переводе некоего глобального конструкта (например, агрессии) в некоторую специфическую, измеряемую форму (например, удары и пинки). Однако мы еще не обсудили параметры, по которым осуществляется измерение. Теоретики выделяют ряд параметров, или «граней» измерения (Messick, 1983). Часть из них мы рассмотрим в этом разделе, остальные — в дальнейшем.

Одно из кардинальных решений, которое нужно принять исследователю, касается определения конкретного аспекта поведения, который он будет изучать. Предположим, что наш воображаемый исследователь агрессии у дошкольников выбрал в качестве критерия агрессии удары. Однако все еще остается нерешенным вопрос, что конкретно в этих ударах будет измеряться. Исследователь, к примеру, может решить работать с частотой действий, то есть оценивать, как часто ребенок наносит удары. Такой прямой подсчет, вероятно, даст наиболее очевидный индекс того, что принято подразумевать под «уровнем агрессии». Альтернативных! вариант — работать не с частотой, а с интенсивностью, то есть оценивать, не как часто ребенок наносит удары, а какой силы эти удары. Интенсивность также имеет очевидную связь с тем, что понимается под «агрессией». Есть и еще один вариант: сосредоточиться не на частоте или интенсивности, а на временных характеристиках поведения. Исследователь, к примеру, может решить измерять латентность или скорость агрессивной реакции или же общую продолжительность эпизодов нанесения ударов. Эта трихотомия «частота—интенсивность—продолжительность» применима не ко всем видам поведения, изучаемым в психологии развития; однако во многих случаях ее вполне можно использовать. Если же такая возможность отсутствует, обычно имеются другие параметры, которые поддаются измерению. Редко какой результат подразумевает лишь единственный способ его измерения.

Выбор аспекта поведения для измерения предполагает наличие решения о способе измерения и, следовательно, ограничен внешними поведенческим проявлениями. Объектом измерения не всегда становится внешнее поведение. Исследователя агрессии могут интересовать и агрессивно окрашенные мысли или фантазии, то есть подспудное психическое содержание, а не фактическое поведение. Чтобы сделать вывод о психическом содержании, ему все равно необходимо выделить некую измеряемую реакцию (например, самоотчеты об агрессивно окрашенных фантазиях); однако в этом случае поведение — это лишь средство к достижению цели. Аналогично исследователь агрессивных эмоций должен получить вербальные отчеты об этих эмоциях; однако вновь объектом изучения служит нечто отличное от внешних поведенческих проявлений. В качестве альтернативы исследователь мог бы выбрать обходной путь и измерять не поведенческие реакции, а физиологические показатели (например, повышение частоты сердечных сокращений, повышение артериального давления) в ответ на ситуацию, провоцирующую агрессию. Эмоции — это только один из конструктов, которые позволяют производить не выраженные внешне измерения. В дальнейшем мы еще встретим множество примеров подобных конструктов.

Обратите внимание, что описанные в предыдущем абзаце варианты оценки иллюстрируют различные направления измерений. Одно из них — от явного к внешне не выраженному. В одних случаях нас интересует само поведение, в других — не наблюдаемые, более общие конструкты (мысли, мотивы, потребности и т. д.), которые предположительно лежат в основе видимого поведения. В одних случаях специфический объект наших измерительных операций — явное поведение (например, удары), в других — это некий скрытый недоступный для прямого наблюдения процесс (например, частота сердечных сокращений). Наконец, в некоторых случаях имеющееся в наличии и специфическое совпадает, в других — нет. Если говорить об ударах, то здесь присутствует совпадение — нас интересует, как часто ребенок бьет других детей, и мы измеряем частоту ударов. Исследователя же эмоций, скорее всего, не интересует частота сердечных сокращений сама по себе; частота сердечных сокращений — это лишь ключ к эмоциональному состоянию. Это различие определяют как различие между признаком и специфической моделью. Иногда мы измеряем специфические модели конструкта, то есть частные случаи (удары, плач, улыбки и т. д.) интересующего нас поведения. А иногда — только признаки, не конструкт сам по себе (поднятие бровей, изменение частоты сердечных сокращений и т. д.), по которым можно судить об этом конструкте. И разумеется, одна и та же характеристика может выступать либо в роли признака, либо в роли специфической модели, в зависимости от ее функции в конкретном исследовании. При изучении плача приступы плача, естественно, — специфические модели. При изучении привязанности приступ плача это признак — обычно один из множества, — по которому судят о характере привязанности.

Последнее разграничение касается целей измерения, то есть того, что мы собираемся делать с полученными данными. В некоторых случаях цель — выявление индивидуальных различий между испытуемыми, оценка степени различия испытуемых из одной выборки по параметру агрессии, привязанности или чего-либо еще. Такая цель особенно часто стоит перед корреляционным исследованием, в котором осуществляется попытка выявления связи между вариациями значений одной группы показателей (например, индивидуальных различий в уровне агрессии у детей) и вариациями значений другой группы показателей (например, различий в полученном воспитании). В других исследованиях в центре внимания находятся не столько индивидуальные различия, сколько непосредственные детерминанты изучаемого поведения. Возьмем в качестве примера гипотетическое исследование социального подкрепления и агрессии. Цель такого исследования могла бы состоять в определении отношений между колебаниями уровня агрессии и наличием или отсутствием подкрепления, а не в оценке того, кто из детей более или менее агрессивен. Или же рассмотрим экспериментальное изучение связи просмотра телепрограмм с эпизодами насилия и агрессивного поведения, подобное тому, которое провели Либерт и Бэрон (Liebert & Baron, 1972). Вновь цель не в выявлении индивидуальных различий в уровне агрессии; цель — узнать, изменяется ли уровень агрессии как функция от характера телепрограмм, которые смотрят дети.

Описанное выше различие иногда называют различием между свойством и состоянием. При измерении свойства нас интересует вопрос, каковы люди вообще, при этом цель, как правило, состоит в выявлении связи измеряемой характеристики с неким другим показателем или некими другими показателями в одной и той же выборке. При измерении состояния нас интересует вопрос, каковы люди в данный момент, при этом цель, как правило, состоит в выявлении связи вариаций непосредственных поведенческих реакций с некоей потенциальной детерминантой изучаемого поведения. В обоих случаях, несомненно, важно выбирать адекватную операционализацию изучаемого конструкта. Более того, конкретные измерительные операции могут быть общими и для оценки состояния, и для оценки свойства. Если, к примеру, определенный итоговый индекс физических актов (ударов, пинков, щипков и т. д.) выступает как критерий индивидуальных различий по уровню агрессии, то этот же критерий, вероятно, может быть использован и в экспериментальном исследовании эффектов просмотра программ с эпизодами насилия. Однако, даже если критерии совпадают, способы измерения этих параметров и их использования могут быть разными в разных видах исследования, Когда в центре внимания находятся индивидуальные различия между людьми, первостепенное значение приобретает оценка специфических моделей поведения в выборке: возможность упорядочить результаты испытуемых по определенному параметру за-

висит от возможности оценить репрезентативные модели поведения каждого испытуемого. Когда же в центре внимания находится влияние экспериментальных манипуляций на изучаемое поведение, вопрос измерений в выборке, а также индивидуальные различия отходят на второй план: теперь нас скорее всего будет интересовать общий, сравнимый с другими, тип поведения, который позволяет выявить искомый эффект. В действительности в этом случае имеющиеся индивидуальные различия становятся даже помехой, поскольку вносят дисперсию ошибки, которая может искажать эффект, представляющий исследовательский интерес.

В этом разделе анализировался ряд направлений, по которым различаются измерения. Все они сведены в табл. 4.1. Как уже отмечалось, более полное освещение этой темы (например, Messick, 1983) добавило бы ряд новых граней. Однако, несмотря на это многообразие параметров измерения, принцип, который следует уяснить, довольно прост: мы выбираем стратегии измерения согласно конкретным целям исследования.

 

Таблица 4.1 Аспекты измерения

 

 Направление Описание
Аспект поведения Какой из аспектов поведения (например, частота, интенсивность, временные параметры) измеряется
Явное/внешне не выраженное Явный объект измерения (наблюдаемое поведение) или неявный (например, некие
  физиологические изменения)
Признак/специфическая модель Является ли критерий признаком, по наличию которого судят о конструкте, или специфической моделью данного конструкта
Свойство/состояние Находятся в центре внимания устойчивые индивидуальные различия между испытуемыми или непосредственный эффект экспериментальных манипуляций

 

Качество измерения

 

Как было сказано выше, измерение — это процесс принятия решений: выбора ограниченного количества методов оценки конструкта из значительно большей совокупности методов. В этом разделе мы рассмотрим некоторые факторы, определяющие, насколько удачен выбор того или иного способа измерения.

Как говорилось в главе 2, «изменчивость» зависимой переменной подразумевает, что получаемые результаты с некоторой долей вероятности изменяются как функция от факторов, изучаемых исследователем. Поэтому один из критериев качества измерения состоит в том, чтобы оно давало необходимый уровень и диапазон значений переменной. В противном случае показатели будут так скученны, что ни один эффект не проявится. Чаще всего этот вопрос обсуждают, говоря о корреляционном исследовании и проблеме ограничения диапазона переменных (смотри главы 3 и 7); однако он имеет отношение и к эксперименту. Рассмотрим вновь исследование Черри и Парка (Cherry & Park, 1993), описанное в главе 2. Предположим, что в качестве стимульного материала для оценки памяти они предъявляли бы не 24, а 4 предмета. В этом случае большинство испытуемых, вероятно, безупречно справились бы с заданием, и не было бы никакой возможности обнаружить эффект контекста (схемы или модели), на выявление которого было направлено исследование.

Эта гипотетическая переформулировка исследования Черри и Парка иллюстрирует один из возможных видов ограничения диапазона: так называемый эффект верхнего предела. Об эффекте верхнего предела говорят, когда задание слишком легкое, и поэтому большинство испытуемых получает баллы, находящиеся на верхней границе шкалы или очень близко от нее. Возможна и противоположная ситуация — скученность показателей у нижней границы шкалы вследствие слишком высокого уровня трудности заданий. Эта проблема, как вы наверное догадались, называется эффектом нижнего предела.

При проявлении достаточной предусмотрительности обычно удается избежать эффектов и верхнего, и нижнего пределов. Поиску оптимального уровня трудности может помочь предварительное исследование с аналогичными заданиями и выборкой. Если сомнения все же остаются, для уточнения критериев можно провести пилотажное исследование. Но как бы ни был предусмотрителен исследователь, он все равно может столкнуться с трудностями, если одни и те же задания и процедуры должны использоваться с испытуемыми, находящимися на разных уровнях развития. Задание, умеренно трудное для одной возрастной группы детей, может вызвать эффект верхнего предела детей старшего возраста, эффект нижнего предела — у детей младшего возраста.

Обсуждая подбор заданий для разных возрастных групп, мы затрагиваем глобальный вопрос эквивалентности измерения. Как говорилось в главе 3, проблема эквивалентности измерений становится актуальной всякий раз, когда в исследовании сравниваются группы испытуемых. В психологии развития наиболее часто этот вопрос встает при сравнении возрастных групп, однако может иметь значение и при сравнении любых групп, сформированных естественным путем. При изучении различий между полами по уровню когнитивных способностей, к примеру, важно отбирать материал, одинаково знакомый и интересный как для мальчиков, так и для девочек. При сравнении разнообразных этнических и культурных общностей важно — и зачастую весьма затруднительно — подобрать методики, которые подходили бы для представителей всех этих групп. Довольно трудно бывает подобрать критерии, адекватные для одной группы испытуемых. Трудность измерения возрастает в несколько раз, когда цель исследования состоит в выявлении межгрупповых различий.

Из сказанного об эквивалентности измерений следует, что одного типа операционализации изучаемого конструкта зачастую бывает недостаточно. Методика, пригодная для одной группы, может оказаться непригодной для другой группы. Это явление — частный случай общей закономерности: Даже когда не производится сравнение групп, результаты использования лишь одной методики — неустойчивый базис для получения выводов. КукиКэмпбелл (Cook& Campbell, 1979) называют применение только одного типа измерительных операций монооперациональным искажением. По их мнению, одна операция практически всегда дает недостаточное представление об изучаемом конструкте, то есть раскрывает лишь некоторые аспекты того (агрессий, интеллекта, половой типизации и т. д.), что мы пытаемся измерить. Наряду с этим любое измерение включает ряд специфических для каждого задания дополнительных факторов (например, определенный порядок слов в инструкции, характер стимульного материала, конкретный человек, выполняющий функции экспериментатора), и поэтому трудно с помощью только одного типа измерений узнать, какая часть полученных результатов действительно имеет значение, а какая — следствие действия дополнительных факторов. Можно быть гораздо более спокойными за наши выводы при использовании нескольких форм измерения. Этот принцип вам уже знаком; в главе 3 мы говорили то же самое об опасности монометодического подхода при изучении причинно-следственных связей. Правилом для обоих случаев является использование конвергентных операций, а не единственного метода исследования.

В этом разделе, посвященном качеству исследования, остается рассмотреть еще два конструкта, крайне значимых для оценки измерения: надежность и валидность. Надежность характеризует согласованность пли воспроизводимость измерений. Вопрос состоит в следующем: будут ли результаты повторных применений некой методики одинаковы или весьма близки? Чем выше степень согласованности при неоднократном применении, тем выше надежность. Цель измерения всегда заключается в максимизации надежности, Валидность, как и везде, имеет отношение к точности — в данном случае, к точности измерений. Вопрос состоит в том, точно ли отражают полученные в ходе измерения значения изучаемый конструкт, то есть измеряем ли мы именно то, что предполагали измерять? Валидность, очевидно, вопрос, касающийся всего процесса измерения. Это глобальная цель, охватывающая все частные моменты, обсуждавшиеся в данном разделе.

Всегда, когда мы что-либо измеряем, встают вопросы надежности и валидности. Однако на практике эти конструкты чаще всего рассматриваются в их отношении к двум видам измерения: к стандартизованным тестам и к обсервативным оценкам. Стандартизованным тестам и методу наблюдения посвящены оставшиеся разделы этой главы; в контексте этих двух форм измерения я более подробно остановлюсь на вопросах надежности и валидности.

 

Тесты

 

Для определения, достойна ли некая измерительная операция называться тестом, не существует общепринятых критериев. В том смысле, в котором данный термин употребляется здесь, это измерительный инструмент, выполняющий функцию оценки ряда важнейших психологических характеристик. Существует множество психологических характеристик и еще больше тестов, претендующих на их измерение; список их включает несколько тысяч наименований (например, Burps, 1978). На страницах этой книги вы встретите ряд примеров: методики оценки темперамента в младенчестве (глава 10), Я-концепции у дошкольников (глава 12), полоролевого развития у старших детей (глава 12) и интеллекта в разные периоды жизни (главы 10, 11 и 13). Приведенные в качестве примера тесты — как и все тесты вообще — различаются по объекту оценки, по возрастным группам, для которых они предназначены, по схеме получения ответов и способам использования результатов тестирования. Однако общим для них всех является то, что они должны отвечать двойному критерию — валидности и надежности.

 

Валидность

 

При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.

Первый — тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.

Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько — с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.

Вторая форма валидности — критериальная валидность. Здесь вопрос состоит в том, связаны ли результаты выполнения теста испытуемым с определенным внешним критерием характеристики, оцениваемой этим тестом. В случае теста на знание арифметики разумным критерием были бы отметки по арифметике за учебный год. Тест, значительно коррелирующий с этими отметками, обладал бы необходимой критериальной валидностью. В случае с интеллектом характерным критерием является возможность с помощью IQ-тестов спрогнозировать уровень школьной успеваемости или успешность выполнения стандартизированных тестов достижения; в действительности, исторически именно потребность в инструментах прогноза школьной успеваемости заставила приступить к разработке первого IQ -теста (тест Симона—Бине, 1905 год). Чаще всего критериальная валидность — это главная форма валидности тестов, основная функция которых состоит

в получении прогностической прагматической оценки. Поэтому именно критериальная валидность лежит в основе использования тестов академических способностей (Scholastic Aptitude Test — SAT) или письменных экзаменов для выпускников (Graduate Record Examinations — GRE) с целью прогноза успеваемости в колледже; использования результатов забега на 40 ярдов с целью прогноза успехов профессиональных футболистов и т. д.

Выделяют две формы критериальной валидности. Тест, коррелирующий с неким наличествующим в данный момент внешним критерием, считается обладающим текущей валидностью. Доказав, к примеру, что IQ, измеряемый во втором классе, коррелирует со школьной успеваемостью во втором классе, мы продемонстрировали бы текущую валидность нашей методики оценки IQ. О тесте, коррелирующем с неким внешним критерием в будущем, говорят, что он обладает прогностической валидностью. Доказав, что IQ, измеренный во втором классе, связан с успеваемостью в старших классах, мы продемонстрировали бы прогностическую валидность.

Последняя форма валидности, которую мы рассмотрим, называется конструкт-ной валидностью. Среди психометристов конструктная валидность считается наиболее важной формой валидности теста. К сожалению, из всех видов валидности исследователю ее труднее всего добиться, а автору учебника — труднее всего разъяснить. Я ограничусь лишь краткими предварительными замечаниями об этом сложном понятии. Более подробное изложение данной темы можно найти во многих источниках, включая работы Кронбах (Croiibach, 1990), Керлингер (Kerlinger, 1986) и Наннэлли (Nunnally, 1978).

Характерной особенностью конструктной валидности является ее теоретическая направленность. Как замечает Керлингер (Kerlinger, 1986), «это не просто вопрос валидизации теста. Необходимо попытаться валидизировать теорию, стоящую за тестом» (р. 420). Исходным пунктом поэтому становится некая концепция конструкта (интеллекта, креативности, Я-концепции, тревожности и т. д.), который мы хотим измерить. На основе этой концепции можно выдвинуть ряд гипотез. Это могут быть гипотезы об эффекте определенного рода экспериментальных манипуляций. Предположим, что мы пытаемся валидизировать некую методику измерения тревожности. Можно выдвинуть гипотезу о том, что повышение напряженности тестовой ситуации приведет к повышению показателя, полученного при помощи данной методики, и наоборот, снижение напряженности приведет к снижению этого показателя. Подобные результаты явились бы свидетельством наличия конструктной валидности.

Для установления конструктной валидности, помимо экспериментальных тестов, имеют значение и корреляционные данные. Прогнозируемые корреляции бывают двух видов. Одни гипотезы касаются вопроса о том, какие параметры конструкта положительно коррелируют с некими другими параметрами.

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: