Статистика — аппарат доказательства психологической диагностики

Конструирование психолого-диагностических методик ставит перед психологом два вопроса.

1. Какие признаки, какие психологические или психофизиологические особен­ности должны быть выделены в качестве объекта диагностирования?

2. Как построить методику, как доказать, что полученные с ее помощью дан­ные диагностируют выделенные признаки, другими словами, что методика отвечает замыслу?

Первый вопрос — вопрос о содержании методики. Ответ на него должен рас­крыть ту психологическую или психофизиологическую реальность, в изучении которой — по теоретическим или практическим соображениям — заинтересован психолог. Такой ответ может дать только психологическая теория. Только она может с надлежащей компетентностью обозначить объекты диагностирования, их «гомологию» и иерархию. Понятно, что диагностика служит не только для того, чтобы подтверждать гипотезы, она может и опровергать их, и выдвигать новые. Но диагностируемые признаки в конечном счете систематизируются теорией.

Однако нередко при психологическом диагнозе пренебрегают теорией, а стре­мясь якобы приблизиться к требованиям практики, оперируют случайным и не­устойчивым набором теоретически неясных психологических признаков челове­ка и не заботятся о том, чтобы научно обосновать объект диагностирования и ввести его в систему теоретических понятий. В конечном счете это отражается на самой методике и на эффективности ее применения. Пора уже признать, что решающее


238 Часть 3. Проблемы психологической диагностики

слово в определении объекта психологической диагностики принадлежит теории. Тестология избегала такого признания, и это отнюдь не пошло ей на пользу. Толь­ко в последние годы эмпирика в тестологии начинает уступать место вытесняю­щей ее теории.

Недостаточную теоретическую обоснованность того, что диагностируется, тес­тология пыталась возместить детально разработанной техникой диагностирования, обработки, сопоставлений и пр. Предполагалось, что созданный для этой цели хо­рошо продуманный аппарат поднимет полученные результаты на уровень теории, если не общепсихологической, то хотя бы своей собственной, тестологической. Это была бы если не полностью независимая от психологии, то все же относительно самостоятельная теория, теория — «как диагностировать».

Однако при всех достоинствах созданной тестологией методической системы скрупулезной статистической проверки тестов из результатов этой проверки ни­как не вытекали собственно теоретические принципы. Поэтому и задача внесения этих принципов в тесты посредством применения теории вероятностей и статис­тики оказалась нерешаемой. Складывались принципы тестирования, но не прин­ципы выделения предметов тестирования. Форма и содержание предстали разоб­щенными, и стало ясно, что форма не обеспечивает содержание. Необходимо же было обеспечить их единство.

Трудность состоит в том, что признание доминирующей роли содержания ни­как не означает, будто форме, технике, методической стороне дела можно отводить второстепенное и несущественное место. Диагностика стоит на сравнении, ранжи­ровании, сопоставлении. Для всего этого абсолютно необходима методическая точ­ность, иначе при известной массовости получаемых данных диагностическое ис­следование теряет смысл. Попробуйте опереться не на методическую строгость, а на «общепсихологическую интуицию» отдельных экспериментов — и вы тотчас же лишитесь критериев, а с ними — и научного содержания диагноза.

Методическая идея, даже если она теоретически обоснована, еще не превраща­ется в методику; для этого должна быть продумана и последовательно осуществ­лена особая и весьма трудоемкая процедура. Только дилетантам представляется, будто эта процедура для всех методик одинакова и независима от идеи. На деле оказывается, что «доведение» методики, ее проверка есть задача также в большей мере теоретическая и чаще всего требующая как психологической, так и матема-тико-статистической подготовки.

Представление о том, что формальная сторона подготовки методики вроде как не относится к психологу, а может быть передана в руки подсобного специалиста, есть представление ложное. Психолог-диагност должен вникать в суть статисти­ческих приемов, которые служат критериальными для его методик, так как эти приемы органически связаны с методическими идеями.

Получившие распространение в наши дни и хорошо обоснованные с математи­ческой стороны статистические приемы применялись и применяются в диагнос­тике лишь потому, что они в большей или меньшей степени отвечали и отвечают определенным психологическим воззрениям. Поэтому их нельзя абсолютизиро­вать и применять в любых случаях, как некий статистический универсальный


Раздел 1. Основные требования к конструированию и проверке психологических тестов 239

ключ. Неадекватное применение статистических приемов может привести к столь же плачевным результатам, как и пренебрежение к статистике.

В частности, это относится к статистическим приемам проверки надежности и валидности методик и к понятию так называемой «нормы».

Речь идет, таким образом, о том, что статистический аппарат, который необхо­дим в работах по психологической диагностике, не находится вне этой диагности­ки, это аппарат самой диагностики и ее обслуживания, его назначение состоит в том, чтобы методическая идея была последовательно реализована, чтобы резуль­таты ее истолкования были вполне определенными, чтобы они отличались необ­ходимой доказательностью. Иными словами, статистика есть аппарат доказа­тельства психологической диагностики. Логический смысл самой теории как бы теряет силу с того момента, как методика поступает в руки экспериментаторов, ра­ботающих часто изолированно друг от друга по месту и времени. С этого момента вступает в силу аппарат методики, прежде всего «статистика, с ее неукоснитель­ными правилами сбора, обработки и сопоставлений материала, с ее вероятностным подходом к оценке полученных выводов». Психолог, недооценивающий роль ста­тистики, может добиться только того, что его выводы будут поставлены под со­мнение.

Статистика применяется для того, чтобы установить меру надежности диагно­стических методик. Прием, обычно применяемый в этом случае, — это корреляция. Какова же, собственно, доказательная роль статистики в этом случае?

Критерий надежности прочно вошел в диагностику, однако при его примене­нии нельзя упускать из виду его логической сущности. В частности, представляет­ся целесообразным толковать надежность в трех смыслах, в зависимости от того, что за ряды коррелируются.

1. Как надежность методики, применяемой в качестве измерительного или ран­жирующего инструмента.

2. Как стабильность изучаемого психологического или психофизиологическо­го признака или функции.

3. Как константность, то есть относительную независимость получаемых с по­мощью методики результатов от неучтенных условий опыта и личности эк­спериментатора.

Цель этого толкования состоит в том, чтобы осветить сущность статистическо­го приема и самого критерия надежности (Гуревич К. М., 1969).

Если придерживаться данной интерпретации, то о надежности измерительно­го инструмента можно судить, основываясь на следующих соображениях. Допус­тим, что для измерения длины предметов наблюдателю дана линейка с делениями, и таких делений — двадцать пять. Наблюдатель не знает, каковы эти деления — сантиметры, дюймы или вершки, — он прежде всего заинтересован в том, чтобы сравнивать между собою предметы по их длине и выражать эту длину в каких-то единицах. Заранее известно, что предметы будут различаться по признаку длины; длина одного составит, положим, десять единиц, длина другого — пять единиц, а третьего — двадцать единиц. Если линейка не протарирована, то прежде всего


240 Часть 3. Проблемы психологической диагностики

наблюдатель должен утвердиться в уверенности, что все деления линейки одина ковы. В частности, один из простых приемов, который можно применить, чтобы решить этот вопрос, состоит в том, чтобы сопоставить между собой две половины линейки. Если при измерении одного и того же объекта выявится расхождение между делениями одной и другой половины, то это должно означать, что инстру­мент ненадежен и для измерений неприменим. Все соображения, которые приве­дены выше, носят не столько узкоматематический, сколько логический характер. При проверке методики (теста) на надежность применяется сопоставление с по­мощью метода корреляций четных и нечетных заданий по их решаемости на предста­вительной выборке. Этим устанавливается надежность методики как таковой.

Специфические особенности психологии и психофизиологии таковы, что опре­делить надежность самой методики не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько стабильны признаки, которые исследователь намерен измерить или ранжировать. Хорошо известно, что многие психологические или психофизиологические признаки в более или менее значи­тельной степени определяются психическими состояниями, а эти последние неред­ко носят временный характер (Рябинина Э. П., 1976). Чем теснее и непосредствен­нее связан измеряемый признак с психическими состояниями и чем более подвер­жен данный субъект постоянным сменам психических состояний, тем в меньшей мере будут стабильны результаты ранжирования или измерения этого признака. Многие психологические признаки нестабильны по самой своей природе: это, на­пример, признаки, которые характеризуются уровнем их развития, положим раз­витие мышления в каких-то его проявлениях, развитие специальной памяти и т. п. При изучении последних признаков приходится еще считаться с тем, что субъек­ты могут находиться в не вполне одинаковых условиях и этим может определить­ся темп их развития.

Как и в предыдущем случае, можно выбрать статистический прием, который адекватно выразил бы искомую стабильность признака. Исследователь не вправе забывать, что роль этого приема чисто служебная: он должен быть применен в каче­стве приема доказательства. Вопрос о том, что он должен подтвердить и что опро­вергнуть, ставится исключительно по смыслу самого исследования. Совершенно очевидно, что там, где речь идет о диагнозе лиц, развивающихся в силу каких-то причин разными темпами, там и не следует ждать высоких совпадений между дву­мя аналогичными пробами, разделенными таким периодом, который достаточен для выявления различий в развитии. Корреляция между первой и второй пробой тогда докажет, что признаки изменились у разных испытуемых в разной степени. Дальнейший анализ, если он нужен для цели исследования, мог бы показать, что испытуемые, находившиеся под влиянием одной группы воздействий, развивались быстрее, чем испытуемые, находившиеся под влиянием другой группы воздей­ствий.

В некоторых видах диагностических исследований вопрос о стабильности из­меряемых признаков имеет решающее значение — это исследования, на основании которых строится длительный прогноз. Естественно, что психолог, высказываю­щий суждения о каком-то признаке, который может на долгие годы предопреде­лить судьбу испытуемых, должен быть вполне уверен в том, что признак этот ха-


Раздел 1. Основные требования к конструированию и проверке психологических тестов 241

рактеризуется высокой стабильностью. Тридцать-сорок лет тому назад это бес­спорное, казалось бы, положение еще не было осознано психологами, занятыми прикладными проблемами; признаки, обосновывающие прогноз, не проверялись на стабильность.

В последние годы проведено много исследований, показывающих, что стабиль­ность ряда функций и процессов, которые должны были бы играть заметную роль в прогнозе, невысока. Прямо и косвенно относящиеся к этому вопросу данные можно найти в обзоре Л. Тайлер (Tyler L., 1972). Укажем, что, повторив психологи­ческие испытания через двадцать лет, авторы одного из таких исследований полу­чили коэффициент корреляции между первым и вторым испытанием, равный +0,22. Исследуемые признаки, как видно, не отличаются высокой стабильностью, следо­вательно, и прогноз, основывающийся на этих признаках, характеризуется незна­чительной вероятностью. Во всех описанных ситуациях статистика может входить как доказательство большей или меньшей стабильности признака и как таковое она поистине незаменима.

В некоторых видах психологических исследований, имеющих в виду диагнос­тические цели, приобретают особое значение условия опытов, а среди них — лич­ность экспериментатора, его «неформализуемые» особенности, присущая ему манера общения с испытуемыми во время опыта. Очевидно, личность экспери­ментатора играет более существенную роль при проведении так называемых не­детерминированных методик, к числу которых относятся проективные методи­ки. В той или другой степени личность экспериментатора влияет на исход любого психологического эксперимента, но не всегда это влияние имеет существенное зна­чение.

Правила диагностического экспериментирования предусматривают, что опы­ты и испытания должны всегда проходить в тождественных условиях. Поэтому диагностические методики снабжаются подробными инструкциями, с примерами и правилами их разбора. Но определенное значение сохраняют некоторые неучтен­ные условия, а среди них и личность экспериментатора, сообщающего инструкции. Волевой нажим, динамичность в сообщении инструкции, наконец, даже дикция и громкость — все это может отразиться на результатах применения методики.

В любом случае, если у исследователя возникает подозрение по поводу влия­ния личности экспериментатора или других условий на исход процедуры диаг­ностирования, целесообразно проверить методику с помощью критерия «кон­стантности». Иначе результаты одного диагностирования будут несопоставимы с результатами другого. Такие проверки проводились, например, в лаборатории дифференциальной психофизиологии Института общей и педагогической психо­логии АПН СССР (Ольшанникова А. Е., Александрова Н. И., 1969).

В упомянутой работе был использован тот же статистический прием-корреля­ция. С его помощью было доказано, что при достаточной общепсихологической квалификации экспериментаторов ни их личные особенности, ни другие неучиты­ваемые условия при проведении некоторых психофизиологических диагностиче­ских исследований не играют значительной роли.

В практике методических критериев тестологии вопрос о влиянии личности экспериментатора и некоторых условий тестирования специально рассматривается


242 Часть 3. Проблемы психологической диагностики

лишь в редких случаях. Однако это не может служить основанием для его недо­оценки. Применение любого критерия при проверке методик не может носить ха­рактер формальности. Приступая к конструированию и затем к использованию своих методик, исследователь ставит перед собою определенные вопросы. Поиск ответа на них и приводит его к статистике.

К сожалению, приходится констатировать, что на формальное отношение к ста­тистике, на недооценку ее собственно доказательного смысла наталкивают неко­торые зарубежные руководства по применению тестов. Сплошь и рядом солидные издания, содержащие полезную информацию, выделяют раздел статистики из об­щего текста и подают его как свод обязательных правил. Возможно, что для мало­квалифицированных экспериментаторов такой способ изложения полезен; он мо­жет предостеречь их от грубых ошибок, коренящихся в слепой доверчивости по отношению к любым данным, лишь бы они были получены экспериментальным путем. Но собственно логическая сторона статистики остается при этом нераскры­той. Неквалифицированный экспериментатор избегает одних ошибок, но не гаран­тирован от того, чтобы совершать другие, вытекающие из бездумного применения статистики.

Прежде всего это относится к понятию надежности. Психологу, знакомому с со­временным состоянием проблемы психологического развития, ясно, что двукрат­ное применение тестов через какой-то промежуток времени (например, через пол­года, как рекомендует Л. Кронбах в своем известном руководстве по тестированию) может привести к значительному расхождению результатов первого и второго те­стирования (Рябинина Э. П., 1976). Это расхождение, собственно, не означает, что тесты плохи. Оно может быть обусловлено и тем, что за период между двумя при­менениями тестов развитие детей или взрослых в экспериментальной выборке шло неодинаковым темпом: одни развивались быстрее, другие — медленнее. Темп мо­жет зависеть и от специфических возрастно-половых особенностей детей к момен­ту первого и второго тестирования, от изменения их интеллектуально-учебной мотивации в оба обозначенных момента, от их индивидуальных особенностей и от ряда других, вероятно, уже менее существенных обстоятельств. Конечно, может иметь решающее значение и то, что функции, испытываемые тестом, вообще не­устойчивы и по этой причине не могут служить надежным — то есть стабильным — объектом измерений. Все эти достаточно простые соображения, однако, могут быть упущены при слепом следовании формальному требованию, которое гласит, что тест должен обладать определенной надежностью, как бы независимо от того, что и в каких условиях им испытывается.

Само по себе это требование резонно. От чего бы ни зависела низкая надеж­ность, ее нельзя просто игнорировать, нужно понять, от чего она зависит.

С другой стороны, если имеются теоретические основания для того, чтобы счи­тать испытываемое качество устойчивым и стабильным, как это, например, имеет место в отношении основных свойств нервной системы, то ссылки на неравномер­ность развития испытуемых как на причину низкой надежности должны быть при­знаны несостоятельными.

Иногда исследователи, проверяющие тест, бездоказательно считают, будто все способы установления надежности теста словно бы идентичны. Разумеется, самым


Раздел 1. Основные требования к конструированию и проверке психологических тестов 243

простым по организации является способ проверки теста как измерительного ин­струмента, что достигается сопоставлением его частей, обычно — путем коррели­рования четных и нечетных задач теста. Что такая проверка теста нужна, это не может быть предметом спора. Но она никак не заменяет других способов провер­ки, в частности проверки стабильности измеряемой функции, а в некоторых слу­чаях, где это необходимо, и проверки теста на константность — путем сопоставле­ния результатов, полученных в более или менее одинаковых условиях и на одной и той же экспериментальной выборке двумя экспериментаторами. Все это говорит о том, что статистика не может достичь поставленных перед нею целей, если она будет восприниматься исследователями как совокупность технических приемов; статистика полезна, если она служит в качестве аппарата доказательств психоло­гической диагностики.

Один из укоренившихся приемов проверки диагностических методик — про­верка их валидности. В самом деле, если тест испытывает какое-то психическое качество и если это качество, согласно гипотетическим построениям психолога, имеет существенное значение в каком-то виде учебной или трудовой деятельнос­ти, то тем самым как бы постулируется, что между уровнем развития или степе­нью представленности данного психического качества и успешностью выполнения учебной и трудовой деятельности должна существовать определенная связь. Чаще всего предполагается, что чем выше представленность психического качества, тем должна быть выше успешность.

Это рассуждение и было, по-видимому, причиной того, что для установления валидности постоянно производили корреляции между успешностью в тесте, ди­агностирующем данное психическое качество, и теми видами успешности, которые так или иначе устанавливались в изучении психологом учебной и трудовой дея­тельности.

Следует заметить, что вопрос о валидности всегда представлялся одним из наи­менее ясных и наименее разработанных (Wallace S. R., 1965). Видный американ­ский психолог Е. Гизелли (Ghiselli E., 1949), неоднократно изучавший состояние валидности применительно к исследованиям в области профессионального труда, показал, что коэффициенты корреляции, получаемые при реализации сопоставле­ний «тест — профессиональная успешность», обычно невысоки.

Были случаи, когда сопоставление давало отрицательный результат, то есть получалась обратная линейная зависимость: чем успешнее выполняется тест, тем ниже была профессиональная успешность. Получались и высокие совпадения. Но картина в целом всегда оказывалась весьма запутанной. По Гизелли выходит, что коэффициент порядка 0,40 — это даже «законная» характеристика возможной валидности.

Дело, однако, не в том, может или не может удовлетворить психолога коэффи­циент валидности такого порядка. Дело в другом: каков логический смысл этого коэффициента, о чем он говорит психологу, какова сама процедура извлечения информации о практической действенности теста или совокупности тестов. При безумной игре коэффициентами эти реальные вопросы остаются в тени.

Психолог, получивший коэффициент валидности порядка 0,40, может объяс­нить этот высокий коэффициент тем, что тест или тесты, которые, как он убежден,


244 Часть 3. Проблемы психологической диагностики

действительно раскрывают важные для учебной и трудовой деятельности сторо­ны психики, не затрагивают некоторых других ее сторон, также имеющих большое значение. Так, интеллектуальный тест не касается сферы мотивации. Вследствие этого нужное психическое качество может быть представлено в достаточной сте­пени и оно могло бы обеспечить успешность, но сам испытуемый неактивен, дея­тельность, осуществляемая им, протекает на невысоком уровне мотивации, поэтому и объективные результаты ее ниже возможных. С другой стороны, можно постро­ить такое же рассуждение, но с обратным знаком: качество представлено в едва-едва удовлетворительной степени, но заинтересованность велика; следствие — ре­зультат деятельности выше ожидавшегося. Итак, испытуемые из одного — пси­хологического — ряда несколько смещаются тут и там, когда они переходят в другой — учебно-трудовой — ряд, где их оценивают по их объективным достижениям. Это смещение и приводит к упомянутому коэффициенту.

Нередко и другие соображения приводятся исследователями:

• недостаточно объективная характеристика успешности со стороны тех лиц, которые ведают учебной или трудовой оценкой — имеются в виду учителя, инструктора, руководство цехов и пр.;

• влияние на оценку таких факторов, которые не могут в полной мере учи­тываться психологом, исследующим психические качества (неправильная организация труда, мешающая выявить подлинные возможности испытуе­мого, неудовлетворительное оборудование, на котором испытуемый вынуж­ден учиться или работать, и т. д.).

Видимо, каждому непредубежденному человеку ясно, что коэффициент более высокого порядка при таких условиях и в самом деле не может быть получен, а если его получают, то это можно объяснить каким-то маловероятным стечением обсто­ятельств, а отнюдь не высоким качеством теста. Складывается впечатление, что психолог, получивший коэффициент другого порядка (положим, на уровне 0,70), имеет больше причин для беспокойства, чем тот, кто получил традиционный 0,40, а то и меньше. В общем, для получения низкой связи между результатами теста или тестов и оценками успешности причин более чем достаточно.

Все это представляется вполне резонным. Однако коэффициент порядка 0,40 все-таки невысок, неясно, как же проверить действенность теста, как найти для этого разумный критерий.

Зарубежные психологи разработали специальные номограммы, наглядно пока­зывающие, что если психолог пользуется для профессионального отбора тестом, который имеет коэффициент валидности даже порядка 0,10, то все-таки он прино­сит известную пользу предприятию, лишь бы коэффициент валидности не был ни нулевым, ни отрицательным. Не вдаваясь в собственно математическую сторону обоснований полезности тестов при низких положительных коэффициентах ва­лидности, обратимся к их логической стороне. Ход рассуждения тут таков: если никакого отбора нет или, что то же самое, коэффициент валидности тестов равен нулю, то предприятие имеет равные шансы получить и годного, и непригодного ра­ботника. Вероятность успешности принятых работников составляет 0,5 (от едини­цы). Но даже незначительный коэффициент валидности увеличивает вероятность


Раздел 1. Основные требования к конструированию и проверке психологических тестов 245

успешной работы вновь принятых, пусть и на небольшую долю. Чем выше коэф­фициент валидности, тем выше ожидается вероятность успешной деятельности лиц, принятых по их успешности в данном тесте. Такова логическая основа приме­нения тестов даже с низкой валидностью (что она обязательно должна быть поло­жительной, это явствует из тех же рассуждений). Изложенные здесь соображения, однако, ни в малейшей мере не проясняют другой стороны дела: почему психолог так безучастен по отношению к самой проверке теста на валидность?

Между тем если, приступая к проверке валидности, не довольствоваться сло­жившимися традиционными требованиями, то дело не покажется столь безнадеж­ным. Много свежих идей относительно проверки валидности содержится в вы­двинутом не так давно понятии «релевантного критерия», о чем нам уже приходи­лось писать (Гуревич К. М., 1970). При сопоставлении результатов тестирования с успешностью психологу рекомендуется пользоваться не оценкой руководителя, так как она, как это ясно всем, страдает множеством недочетов (избавиться от кото­рых можно, лишь, вероятно, имея в качестве руководителя психолога-едино­мышленника), а реальным производственным показателем, на выявление которо­го направлен тест, скоростью выполнения определенного приема (приемов), точ­ностью сенсорного различения, объективно оцениваемыми качествами принятого решения и т. п. Смысл применения релевантного критерия в том, чтобы найти в деятельности такие элементы или структуры, которые поддаются однозначной психологической интерпретации, так, чтобы эта интерпретация, выраженная в ко­личественных и качественных характеристиках, могла выступить в виде оценоч­ного ряда для сопоставлений.

Допустим, что такой релевантный критерий найден. Однако он еще не решает всех вопросов. В частности, остается вопрос мотивации — ведь хорошо или плохо работает не совокупность психических качеств, а человек, личность, заинтересо­ванная в успехе своей деятельности. Решить такую задачу трудно, но нельзя от нее на этом основании отказываться. Так, можно при проверке валидности использо­вать специально отобранную группу высокомотивированных работников. Психо­лог, проверяющий валидность на неотобранной группе, заведомо затрудняет вы­вод логических заключений, к которым придет после своих сопоставлений. А за­дача его в том, чтобы их упростить.

Большие сомнения вызывает проверка «по одновременности» валидности тес­тов, предназначенных для отбора. Этот способ проверки состоит в том, что тести­рованию подвергается группа лиц уже работающих, уже имеющих опыт и дости­жения в изучаемой психологом деятельности. Неясностей в таком способе проверки более чем достаточно. Прежде всего, неизвестно, какими были эти ныне успешно выполняющие свою работу лица, когда они лишь начинали свою деятельность. Если речь идет об их психических качествах, таких как внимание, память, специ­альная интеллектуально-мыслительная деятельность, то ни один серьезный пси­холог не согласится с тем, что перечисленные и подобные им психические качества остались за время их деятельности неизменными. Бесспорно, что в деятельности происходил процесс развития, причем развития специфического, приноровленного к деятельности. Признав это, психолог оказывается перед новой задачей: а какой, собственно, уровень нужного качества необходим и достаточен, чтобы вступить


246 Часть 3. Проблемы психологической диагностики

в деятельность? Валидность, полученная на группе опытных людей высокого про­фессионального уровня, никак не дает оснований для решения вопроса о валидно­сти для группы с полным отсутствием профессионального опыта. Группа профес­сионалов не репрезентативна для того, чтобы полученные на ней данные перенес­ти на группу начинающих.

Высказанное выше сомнение не единственное. Допустим, что развитие высоко­квалифицированной группы признано. Однако столь же обязательно признать это развитие не только и даже не столько развитием «вообще», сколько нужно при­знать его развитием специальным. Актер умеет запоминать текст роли. Но это не значит, что он столь же успешно запомнит, положим, неперсонифицированный и эмоционально нейтральный текст научного сообщения. Память актера, как и лю­бого другого профессионала, развивается в том направлении, которое дано его де­ятельностью. Поэтому испытание квалифицированных специалистов такими тес­тами, которые адресованы к функции неспециализированной, например, испыта­ние у актеров памяти «вообще», может дать неожиданные результаты — может получиться так, что память актера, ежедневно запоминающего и воспроизводяще­го целые страницы текста, окажется хуже, чем память какого-либо другого специ­алиста. Валидность, проверяемая на выборке, составленной из профессионалов, окажется очень низкой или даже нулевой, хотя тест «вообще» исследует профес­сионально важную функцию. Допустим и другой путь — приближения психоло­гического теста по его содержанию (по характеру заданий) к специфике профес­сиональных заданий; не лучше ли тогда перейти к рационально подготовленному тесту учета профессиональной успешности? Но применение такого рода теста означает, что психолог выявляет не что иное, как степень профессиональной под­готовленности. Впрочем, иногда это и требуется.

Бывает, что психолог в погоне за приемлемым показателем валидности пробу­ет и перебирает различные критерии и различные статистические приемы, окон­чательно упуская из виду логико-психологический анализ проверочной процеду­ры и забывая о доказательности полученных выводов. Этим, вероятно, отчасти вызывается застой в важнейшей области практической проверки значения психо­логических испытаний.

Между тем последовательное применение релевантных критериев на группах специалистов с высокой мотивацией и с различным стажем профессиональной деятельности могли бы привести к объективным оценкам валидности тестов, ис­следующих совокупность психических и психофизиологических признаков. На это требуются время и силы, но это один из способов разорвать порочный круг тради­ционного подхода к валидности.

В связи с изложенным необходимо сделать одно важное замечание. Все, что было сказано выше, относится к валидности по собственно психологическим диагностическим методикам. В области методик дифференциальной психофи­зиологии дело обстоит иначе, что обусловлено тем, что признаки, устанавливае­мые методиками дифференциальной психофизиологии, отличаются стабильнос­тью, устойчивостью. В дифференциально-психофизиологической литературе во­прос о валидности применительно к методикам этого рода нашел свое освещение (Гуревич К. М., 1970). Отметим, что корреляция, раскрывающая линейные связи,


Раздел 1. Основные требования к конструированию и проверке психологических тестов 247

не может при проверке дифференциальных психофизиологических методик слу­жить адекватным приемом проверки валидности. Может быть, неполная адекват­ность корреляции сказывается и при установлении валидности собственно пси­хологических методик, но этот вопрос заслуживает особого рассмотрения. Дело тут опять-таки не в покорном использовании кем-то предписанной процедуры, а в творческом, разумном и обоснованном подходе к выбору статистических при­емов. Сам по себе ни один статистический прием не может быть назван ни хоро­шим, ни плохим, как ни один логический прием также не может быть назван ни хорошим, ни плохим. Все дело в их правильном использовании, в том, насколько они правомерны в данных конкретных исследованиях, насколько отвечают постав­ленной задаче.

Выбор приемов, которые использовались психологами при установлении на­дежности и валидности, носит отпечаток определенного психологического миро­воззрения, весьма далекого от современного.

Психологическая позиция, выдвинувшая эти приемы, — это позиция метафи­зического понимания психических процессов, функций и качеств: все эти психи­ческие реальности как бы признаются неизменными. Встанем на время на эту по­зицию. Тогда нам станет ясно, что для проверки надежности нет лучшего приема, чем корреляции повторного тестирования через какой-то промежуток времени. С этой же позиции можно утверждать, что лица, которые сформировались как про­фессионалы, остались по своим психическим качествам такими же, какими они были, когда они лишь приступали к своей профессиональной деятельности. Воз­можно, что этот метафизический подход и затормозил творческое использование статистических приемов как аппарата доказательств современной психологичес­кой диагностики.

Одно из наиболее ярких выражений определенных теоретических воззрений в психологической диагностике связано с проблемой так называемой нормы.

В любом диагностическом исследовании психолог нуждается в том, чтобы как-то классифицировать испытуемых, входящих в экспериментальную выборку. Для этой цели используются различные статистические приемы, техническая сторона которых не может нас в этом сообщении занимать. Смысл этих приемов в том, что­бы в делении на группы не было субъективного произвола. Чтобы избежать этого, можно, например, использовать в качестве критерия особую статистическую вели­чину — так называемое квадратическое отклонение, величину, которую в западной литературе именуют «стандартным отклонением». В принципе, использование этой величины ничего противозаконного в себе не содержит, квадратическое отклоне­ние при нормальном распределении столь же удобно, как и перцентиляжные ве­личины, предполагающие при других видах распределения деления ряда по его процентным соотношениям.

Если говорить о чисто статистической стороне дела, то она в самых общих чер­тах состоит в том, что среднее квадратическое отклонение есть величина, относя­щаяся к определенному виду распределения, именно к нормальному распределе­нию, с кривой, напоминающей колокол. Нам в данном случае важно заметить одно весьма существенное для дальнейших рассуждений обстоятельство: нормальное распределение характерно для большинства биологических явлений. Возьмем,


248 Часть 3. Проблемы психологической диагностики

например, в качестве предмета изучения рост каких-нибудь особей — мышей, жу­ков, колосьев определенного вида, — если изучаемая выборка будет достаточно велика и представительна, то в каждом случае мы с большой вероятностью можем полагать, что получим нормальное распределение: очень большие и малые экзем­пляры будут представлены в небольших количествах, а экземпляры среднего — для данного вида — роста будут наблюдаться в относительно большом количестве. Чтобы графически отразить полученное распределение, нужно по оси абсцисс от­ложить единицы измерения, а по оси ординат — число случаев, приходящихся на каждую единицу. Это будет нормальное распределение, если график имеет форму колокола.

Ранее мы уже отмечали, что широкое применение психодиагностических мето­дик было ознаменовано тем, что их стали также «подгонять» под нормальное рас­пределение. Слово «подгонять» тут поставлено не случайно. Тесты именно под­гоняли, чтобы получить нормальное распределение. Начал применять этот способ «совершенствования» тестов Термен из Стенфордского университета в США, ког­да он взялся за переработку шкалы Бине. Каждый хоть немного знакомый со ста­тистикой и теорией вероятности психолог знает, что нормальное распределение сильно упрощает обработку и всю последующую технику использования резуль­татов тестирования.

В частности, одно из преимуществ нормального распределения состоит в том, что открывает возможность использования «стандартного отклонения», которое дает определенные основания для разбиения выборки на группы. Известно, что при нормальном распределении в пределах х ± 2Ао должно находиться 50 % всех слу­чаев, имеющихся в данной совокупности или выборке (л: и, соответственно сред­няя арифметическая и стандартное отклонение).

Норма для измерений признака будет находиться в этих границах. Это означа­ет, другими словами, что в этих границах заключена та часть совокупности или выборки, которую можно считать наиболее типичной, характерной для нее. Когда распределение имеет форму колокола, оно симметрично, поэтому 25 % случаев окажутся за пределами нормы, превосходя ее, а 25 % также за пределами нормы, но будучи ниже ее, не достигая ее. При необходимости, пользуясь тем же стандарт­ным отклонением, можно прибегнуть и к более дробному делению на группы, мож­но устанавливать границы групп, отделяя в ту и другую сторону от среднего ариф­метического по 0,5, и т. п.

Вернемся к делению совокупности или выборки на три группы. Исследователь, получивший по интересующему его признаку нормальное распределение, заранее постулирует, что в границы нормы войдет лишь часть взятой им выборки. Как должны толковаться по отношению к этой норме обе оставшиеся группы?

Такое толкование обычно приводит к смешению понятий собственно статисти­ческих и бытовых, неправомерно вошедших в психологию. Характеристики «выше нормы» и «ниже нормы», когда их относят к психологическим признакам, в осо­бенности к результатам интеллектуальных тестов, приобретают общепонятный, но при этом лишенный научного содержания смысл. Так, можно сделать вывод — и он действительно делается, — что по признакам, которые измеряются интеллек­туальными тестами, 25 % всего человечества находятся «ниже нормы»! И иногда


Раздел 1. Основные требования к конструированию и проверке психологических тестов 249

в группу «ниже нормы» включают как людей аномальных, так и здоровых, но якобы недостаточно умных.

Понятие нормального распределения вошло в психологическую диагностику вместе с тестами Стэнфорд—Бине. Вообще говоря, вряд ли можно возражать про­тив того, чтобы распределение результатов тестирования было «подогнано» каким-нибудь способом, например специальным подбором задач к нормальному распреде­лению. Но после того, как это сделано, кривые распределения следует рассматри­вать только со стороны приобретенных ими формальных технических преимуществ — их удобно разбивать на группы, они пригодны для корректного применения к ним некоторых эффективных формул для установления значимых связей и различий (по Пирсону — Браве, по Стьюденту и т. п.). Во многих случаях преимущества, по­лучаемые при нормальном распределении, очевидны и бесспорны. Но, пользуясь ими, нельзя забывать, что сама-то нормальность распределения создана, так ска­зать, руками исследователя.

В психологической диагностике, поскольку она занимается измерениями явле­ний психики, зависящих от социального опыта испытуемых, нормальное распре­деление результатов тестирования не может быть правилом, а может быть лишь исключением. Если уж оно получилось, то причины его нужно специально выяс­нять, его нельзя толковать как проявление «закона природы», который не нужда­ется в объяснении, а сам все объясняет. В явлениях, детерминируемых законами социальной жизни, не имеет решающего значения игра тех сил, от которых зави­сит нормальное распределение биологических явлений.

Поэтому и интерпретация группировок, выделенных при распределении, долж­на быть весьма условной. И характеристики групп — «норма», «ниже нормы», «выше нормы» — имеют не бытовое, а формальное и условное значение.

Общество состоит из классов, социальных групп. Законы развития людей, вхо­дящих в эти группы, — это не имманентные законы самой психики, а законы соци­альные. Кривую нормального распределения можно получить, если брать в долж­ной пропорции представителей разных по образованию социальных групп.

Весьма сомнительна подобная операция с точки зрения статистики. Ведь это представители групп, имеющих различный опыт, различное образование — оно нередко оказывается одним из решающих факторов успешности в тестовых пси­хологических испытаниях, — как же можно их объединять в одну совокупность? Статистика говорит, что нельзя объединить в совокупность группы, которые име­ют существенные различия между собою по измеряемому признаку.

Психологу не нужно доказывать, что люди, находящиеся в неодинаково благо­приятных для развития условиях, вследствие этого и в самом деле развиваются неодинаково. Применяя же к ним — притом неправомерно — бытовое понятие нор­мы, рассуждение нужно строить наоборот: эти люди неодинаковы по развитию, и поэтому они находятся в неодинаково благоприятных условиях для развития.

Автор известной шкалы Д. Векслер пишет, что он старался подобрать для стан­дартизации своих тестов такую выборку, которая отражает те же пропорции раз­личных групп населения, которые представлены в населении США: «Выборка, подобранная для стандартизации, должна представлять столь похоже, как воз­можно, ту популяцию, для которой предназначены тесты» (Wechsler D., 1955).


250 Часть 3. Проблемы психологической диагностики

Подобрав такую выборку, Д. Векслер получил распределение, близкое к нормаль­ному. Вот как поступил автор. Он выделил и соответственно представил в экспе­риментальной выборке, предназначенной для стандартизации тестов, пять образо­вательных групп: до 8 лет обучения; от 9 до 11 лет; 12 лет; от 13 до 15 лет и 16 и выше лет обучения. Образовательный уровень в США обычно прямо связан социально-экономическим статусом, о чем автор не говорит.

Среди испытуемых, подобранных для стандартизации шкалы, для мужчин в воз­расте 20-24 года было:

• прошедших до 8 лет обучения — 25 %;

• от 9 до 11 лет обучения — 23 %;

• 12 лет обучения—30%;

• от 13 до 15 лет обучения —16 %;

• 16 и более лет обучения — 6 %.

Эти пропорции соответствуют общеамериканским. Они дают, если разбить выборку на те же группы, которые были нами ранее использованы в рассмотрен­ном примере, такое разбиение:

• обучение до 8 лет — 25 %;

• от 9 до 12 лет-53%;

• 13 и более-22%.

Автор шкалы получил распределение, близкое к нормальному. Но это достиг­нуто тем, что люди, относящиеся к различным социальным и образовательным группам, были неправомерно объединены в одну выборку и по их данным, что столь же неправомерно, выведена общая норма.

Речь не идет о том, что при обработке данных, полученных с помощью психо­логических методик, нельзя пользоваться «стандартным отклонением», нельзя разбивать испытуемых на группы и т. п. Речь идет о том, что при проведении всех таких статистических операций нельзя забывать и о содержательной стороне пси­хологической диагностики.

Об общечеловеческих психологических стандартах правомерно говорить толь­ко при сравнении людей физически здоровых с людьми аномальными. Когда по­нятие нормы, полученное путем выделения некоторой средней представительной группы, начинает применяться в отношении социально неоднородных групп здо­ровых психически людей, то с таким решением нельзя согласиться. Совершенно ясно, что группы людей с различным социально-психологическим опытом имеют свои особенные характеристики по психологическим признакам и ставить их по результатам тестирования в один и тот же иерархический ряд недопустимо.

Проблема нормы обсуждается и в тестологической литературе. Ли Кронбах полагает, что от этого понятия в ряде случаев вообще следует отказаться. Он счи­тает, что важно дать характеристику того, что умеет ребенок, достигший опреде­ленных результатов по тесту, а не ссылаться на его место в распределении относи­тельно нормы. Видимо, суть дела должна быть выражена так: результаты по тесту следует сопоставлять с возможностями выполнения некоторых конкретных учеб­ных и профессиональных задач, чтобы установить, какие из них посильны для лиц


Раздел 1. Основные требования к конструированию и проверке психологических тестов 251

с теми или другими баллами по тесту. Как считает Л. Кронбах, полученный балл не должен рассматриваться и как предел достижений данного лица, то есть этот автор придает тесту диагностическое, а не прогностическое значение (Cronbach L., 1972).

Все отчетливее вырисовывается некоторый общий подход к оценкам самих те­стов как инструмента психологической диагностики и лиц, прошедших тестиро­вание, не по имманентным критериям, а по результатам сопоставлений со значи­мыми критериями. Можно полагать, что для этого понадобится применение — для большего числа случаев — новых статистических приемов, вероятно — уравнений регрессии. Использование их поможет статистике выступить в своей роли аппара­та доказательства психологической диагностики.


РАЗДЕЛ 2

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: