Статистика — аппарат доказательства психологической диагностики

Конструирование психолого-диагностических методик ставит перед психологом два вопроса.

1. Какие признаки, какие психологические или психофизиологические особенности должны быть выделены в качестве объекта диагностирования?

2. Как построить методику, как доказать, что полученные с ее помощью данные диагностируют выделенные признаки, другими словами, что методика отвечает замыслу?

Первый вопрос — вопрос о содержании методики. Ответ на него должен раскрыть ту психологическую или психофизиологическую реальность, в изучении которой — по теоретическим или практическим соображениям — заинтересован психолог. Такой ответ может дать только психологическая теория. Только она может с надлежащей компетентностью обозначить объекты диагностирования, их «гомологию» и иерархию. Понятно, что диагностика служит не только для того, чтобы подтверждать гипотезы, она может и опровергать их, и выдвигать новые. Но диагностируемые признаки в конечном счете систематизируются теорией.

Однако нередко при психологическом диагнозе пренебрегают теорией, а стремясь якобы приблизиться к требованиям практики, оперируют случайным и неустойчивым набором теоретически неясных психологических признаков человека и не заботятся о том, чтобы научно обосновать объект диагностирования и ввести его в систему теоретических понятий. В конечном счете это отражается на самой методике и на эффективности ее применения. Пора уже признать, что решающее

238 Часть 3. Проблемы психологической диагностики

слово в определении объекта психологической диагностики принадлежит теории. Тестология избегала такого признания, и это отнюдь не пошло ей на пользу. Только в последние годы эмпирика в тестологии начинает уступать место вытесняющей ее теории.

Недостаточную теоретическую обоснованность того, что диагностируется, тестология пыталась возместить детально разработанной техникой диагностирования, обработки, сопоставлений и пр. Предполагалось, что созданный для этой цели хорошо продуманный аппарат поднимет полученные результаты на уровень теории, если не общепсихологической, то хотя бы своей собственной, тестологической. Это была бы если не полностью независимая от психологии, то все же относительно самостоятельная теория, теория — «как диагностировать».

Однако при всех достоинствах созданной тестологией методической системы скрупулезной статистической проверки тестов из результатов этой проверки никак не вытекали собственно теоретические принципы. Поэтому и задача внесения этих принципов в тесты посредством применения теории вероятностей и статистики оказалась нерешаемой. Складывались принципы тестирования, но не принципы выделения предметов тестирования. Форма и содержание предстали разобщенными, и стало ясно, что форма не обеспечивает содержание. Необходимо же было обеспечить их единство.

Трудность состоит в том, что признание доминирующей роли содержания никак не означает, будто форме, технике, методической стороне дела можно отводить второстепенное и несущественное место. Диагностика стоит на сравнении, ранжировании, сопоставлении. Для всего этого абсолютно необходима методическая точность, иначе при известной массовости получаемых данных диагностическое исследование теряет смысл. Попробуйте опереться не на методическую строгость, а на «общепсихологическую интуицию» отдельных экспериментов — и вы тотчас же лишитесь критериев, а с ними — и научного содержания диагноза.

Методическая идея, даже если она теоретически обоснована, еще не превращается в методику; для этого должна быть продумана и последовательно осуществлена особая и весьма трудоемкая процедура. Только дилетантам представляется, будто эта процедура для всех методик одинакова и независима от идеи. На деле оказывается, что «доведение» методики, ее проверка есть задача также в большей мере теоретическая и чаще всего требующая как психологической, так и матема-тико-статистической подготовки.

Представление о том, что формальная сторона подготовки методики вроде как не относится к психологу, а может быть передана в руки подсобного специалиста, есть представление ложное. Психолог-диагност должен вникать в суть статистических приемов, которые служат критериальными для его методик, так как эти приемы органически связаны с методическими идеями.

Получившие распространение в наши дни и хорошо обоснованные с математической стороны статистические приемы применялись и применяются в диагностике лишь потому, что они в большей или меньшей степени отвечали и отвечают определенным психологическим воззрениям. Поэтому их нельзя абсолютизировать и применять в любых случаях, как некий статистический универсальный

Раздел 1. Основные требования к конструированию и проверке психологических тестов 239

ключ. Неадекватное применение статистических приемов может привести к столь же плачевным результатам, как и пренебрежение к статистике.

В частности, это относится к статистическим приемам проверки надежности и валидности методик и к понятию так называемой «нормы».

Речь идет, таким образом, о том, что статистический аппарат, который необходим в работах по психологической диагностике, не находится вне этой диагностики, это аппарат самой диагностики и ее обслуживания, его назначение состоит в том, чтобы методическая идея была последовательно реализована, чтобы результаты ее истолкования были вполне определенными, чтобы они отличались необходимой доказательностью. Иными словами, статистика есть аппарат доказательства психологической диагностики. Логический смысл самой теории как бы теряет силу с того момента, как методика поступает в руки экспериментаторов, работающих часто изолированно друг от друга по месту и времени. С этого момента вступает в силу аппарат методики, прежде всего «статистика, с ее неукоснительными правилами сбора, обработки и сопоставлений материала, с ее вероятностным подходом к оценке полученных выводов». Психолог, недооценивающий роль статистики, может добиться только того, что его выводы будут поставлены под сомнение.

Статистика применяется для того, чтобы установить меру надежности диагностических методик. Прием, обычно применяемый в этом случае, — это корреляция. Какова же, собственно, доказательная роль статистики в этом случае?

Критерий надежности прочно вошел в диагностику, однако при его применении нельзя упускать из виду его логической сущности. В частности, представляется целесообразным толковать надежность в трех смыслах, в зависимости от того, что за ряды коррелируются.

1. Как надежность методики, применяемой в качестве измерительного или ранжирующего инструмента.

2. Как стабильность изучаемого психологического или психофизиологического признака или функции.

3. Как константность, то есть относительную независимость получаемых с помощью методики результатов от неучтенных условий опыта и личности экспериментатора.

Цель этого толкования состоит в том, чтобы осветить сущность статистического приема и самого критерия надежности (Гуревич К. М., 1969).

Если придерживаться данной интерпретации, то о надежности измерительного инструмента можно судить, основываясь на следующих соображениях. Допустим, что для измерения длины предметов наблюдателю дана линейка с делениями, и таких делений — двадцать пять. Наблюдатель не знает, каковы эти деления — сантиметры, дюймы или вершки, — он прежде всего заинтересован в том, чтобы сравнивать между собою предметы по их длине и выражать эту длину в каких-то единицах. Заранее известно, что предметы будут различаться по признаку длины; длина одного составит, положим, десять единиц, длина другого — пять единиц, а третьего — двадцать единиц. Если линейка не протарирована, то прежде всего

240 Часть 3. Проблемы психологической диагностики

наблюдатель должен утвердиться в уверенности, что все деления линейки одина ковы. В частности, один из простых приемов, который можно применить, чтобы решить этот вопрос, состоит в том, чтобы сопоставить между собой две половины линейки. Если при измерении одного и того же объекта выявится расхождение между делениями одной и другой половины, то это должно означать, что инструмент ненадежен и для измерений неприменим. Все соображения, которые приведены выше, носят не столько узкоматематический, сколько логический характер. При проверке методики (теста) на надежность применяется сопоставление с помощью метода корреляций четных и нечетных заданий по их решаемости на представительной выборке. Этим устанавливается надежность методики как таковой.

Специфические особенности психологии и психофизиологии таковы, что определить надежность самой методики не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько стабильны признаки, которые исследователь намерен измерить или ранжировать. Хорошо известно, что многие психологические или психофизиологические признаки в более или менее значительной степени определяются психическими состояниями, а эти последние нередко носят временный характер (Рябинина Э. П., 1976). Чем теснее и непосредственнее связан измеряемый признак с психическими состояниями и чем более подвержен данный субъект постоянным сменам психических состояний, тем в меньшей мере будут стабильны результаты ранжирования или измерения этого признака. Многие психологические признаки нестабильны по самой своей природе: это, например, признаки, которые характеризуются уровнем их развития, положим развитие мышления в каких-то его проявлениях, развитие специальной памяти и т. п. При изучении последних признаков приходится еще считаться с тем, что субъекты могут находиться в не вполне одинаковых условиях и этим может определиться темп их развития.

Как и в предыдущем случае, можно выбрать статистический прием, который адекватно выразил бы искомую стабильность признака. Исследователь не вправе забывать, что роль этого приема чисто служебная: он должен быть применен в качестве приема доказательства. Вопрос о том, что он должен подтвердить и что опровергнуть, ставится исключительно по смыслу самого исследования. Совершенно очевидно, что там, где речь идет о диагнозе лиц, развивающихся в силу каких-то причин разными темпами, там и не следует ждать высоких совпадений между двумя аналогичными пробами, разделенными таким периодом, который достаточен для выявления различий в развитии. Корреляция между первой и второй пробой тогда докажет, что признаки изменились у разных испытуемых в разной степени. Дальнейший анализ, если он нужен для цели исследования, мог бы показать, что испытуемые, находившиеся под влиянием одной группы воздействий, развивались быстрее, чем испытуемые, находившиеся под влиянием другой группы воздействий.

В некоторых видах диагностических исследований вопрос о стабильности измеряемых признаков имеет решающее значение — это исследования, на основании которых строится длительный прогноз. Естественно, что психолог, высказывающий суждения о каком-то признаке, который может на долгие годы предопределить судьбу испытуемых, должен быть вполне уверен в том, что признак этот ха-

Раздел 1. Основные требования к конструированию и проверке психологических тестов 241

рактеризуется высокой стабильностью. Тридцать-сорок лет тому назад это бесспорное, казалось бы, положение еще не было осознано психологами, занятыми прикладными проблемами; признаки, обосновывающие прогноз, не проверялись на стабильность.

В последние годы проведено много исследований, показывающих, что стабильность ряда функций и процессов, которые должны были бы играть заметную роль в прогнозе, невысока. Прямо и косвенно относящиеся к этому вопросу данные можно найти в обзоре Л. Тайлер (Tyler L., 1972). Укажем, что, повторив психологические испытания через двадцать лет, авторы одного из таких исследований получили коэффициент корреляции между первым и вторым испытанием, равный +0,22. Исследуемые признаки, как видно, не отличаются высокой стабильностью, следовательно, и прогноз, основывающийся на этих признаках, характеризуется незначительной вероятностью. Во всех описанных ситуациях статистика может входить как доказательство большей или меньшей стабильности признака и как таковое она поистине незаменима.

В некоторых видах психологических исследований, имеющих в виду диагностические цели, приобретают особое значение условия опытов, а среди них — личность экспериментатора, его «неформализуемые» особенности, присущая ему манера общения с испытуемыми во время опыта. Очевидно, личность экспериментатора играет более существенную роль при проведении так называемых недетерминированных методик, к числу которых относятся проективные методики. В той или другой степени личность экспериментатора влияет на исход любого психологического эксперимента, но не всегда это влияние имеет существенное значение.

Правила диагностического экспериментирования предусматривают, что опыты и испытания должны всегда проходить в тождественных условиях. Поэтому диагностические методики снабжаются подробными инструкциями, с примерами и правилами их разбора. Но определенное значение сохраняют некоторые неучтенные условия, а среди них и личность экспериментатора, сообщающего инструкции. Волевой нажим, динамичность в сообщении инструкции, наконец, даже дикция и громкость — все это может отразиться на результатах применения методики.

В любом случае, если у исследователя возникает подозрение по поводу влияния личности экспериментатора или других условий на исход процедуры диагностирования, целесообразно проверить методику с помощью критерия «константности». Иначе результаты одного диагностирования будут несопоставимы с результатами другого. Такие проверки проводились, например, в лаборатории дифференциальной психофизиологии Института общей и педагогической психологии АПН СССР (Ольшанникова А. Е., Александрова Н. И., 1969).

В упомянутой работе был использован тот же статистический прием-корреляция. С его помощью было доказано, что при достаточной общепсихологической квалификации экспериментаторов ни их личные особенности, ни другие неучитываемые условия при проведении некоторых психофизиологических диагностических исследований не играют значительной роли.

В практике методических критериев тестологии вопрос о влиянии личности экспериментатора и некоторых условий тестирования специально рассматривается

242 Часть 3. Проблемы психологической диагностики

лишь в редких случаях. Однако это не может служить основанием для его недооценки. Применение любого критерия при проверке методик не может носить характер формальности. Приступая к конструированию и затем к использованию своих методик, исследователь ставит перед собою определенные вопросы. Поиск ответа на них и приводит его к статистике.

К сожалению, приходится констатировать, что на формальное отношение к статистике, на недооценку ее собственно доказательного смысла наталкивают некоторые зарубежные руководства по применению тестов. Сплошь и рядом солидные издания, содержащие полезную информацию, выделяют раздел статистики из общего текста и подают его как свод обязательных правил. Возможно, что для малоквалифицированных экспериментаторов такой способ изложения полезен; он может предостеречь их от грубых ошибок, коренящихся в слепой доверчивости по отношению к любым данным, лишь бы они были получены экспериментальным путем. Но собственно логическая сторона статистики остается при этом нераскрытой. Неквалифицированный экспериментатор избегает одних ошибок, но не гарантирован от того, чтобы совершать другие, вытекающие из бездумного применения статистики.

Прежде всего это относится к понятию надежности. Психологу, знакомому с современным состоянием проблемы психологического развития, ясно, что двукратное применение тестов через какой-то промежуток времени (например, через полгода, как рекомендует Л. Кронбах в своем известном руководстве по тестированию) может привести к значительному расхождению результатов первого и второго тестирования (Рябинина Э. П., 1976). Это расхождение, собственно, не означает, что тесты плохи. Оно может быть обусловлено и тем, что за период между двумя применениями тестов развитие детей или взрослых в экспериментальной выборке шло неодинаковым темпом: одни развивались быстрее, другие — медленнее. Темп может зависеть и от специфических возрастно-половых особенностей детей к моменту первого и второго тестирования, от изменения их интеллектуально-учебной мотивации в оба обозначенных момента, от их индивидуальных особенностей и от ряда других, вероятно, уже менее существенных обстоятельств. Конечно, может иметь решающее значение и то, что функции, испытываемые тестом, вообще неустойчивы и по этой причине не могут служить надежным — то есть стабильным — объектом измерений. Все эти достаточно простые соображения, однако, могут быть упущены при слепом следовании формальному требованию, которое гласит, что тест должен обладать определенной надежностью, как бы независимо от того, что и в каких условиях им испытывается.

Само по себе это требование резонно. От чего бы ни зависела низкая надежность, ее нельзя просто игнорировать, нужно понять, от чего она зависит.

С другой стороны, если имеются теоретические основания для того, чтобы считать испытываемое качество устойчивым и стабильным, как это, например, имеет место в отношении основных свойств нервной системы, то ссылки на неравномерность развития испытуемых как на причину низкой надежности должны быть признаны несостоятельными.

Иногда исследователи, проверяющие тест, бездоказательно считают, будто все способы установления надежности теста словно бы идентичны. Разумеется, самым

Раздел 1. Основные требования к конструированию и проверке психологических тестов 243

простым по организации является способ проверки теста как измерительного инструмента, что достигается сопоставлением его частей, обычно — путем коррелирования четных и нечетных задач теста. Что такая проверка теста нужна, это не может быть предметом спора. Но она никак не заменяет других способов проверки, в частности проверки стабильности измеряемой функции, а в некоторых случаях, где это необходимо, и проверки теста на константность — путем сопоставления результатов, полученных в более или менее одинаковых условиях и на одной и той же экспериментальной выборке двумя экспериментаторами. Все это говорит о том, что статистика не может достичь поставленных перед нею целей, если она будет восприниматься исследователями как совокупность технических приемов; статистика полезна, если она служит в качестве аппарата доказательств психологической диагностики.

Один из укоренившихся приемов проверки диагностических методик — проверка их валидности. В самом деле, если тест испытывает какое-то психическое качество и если это качество, согласно гипотетическим построениям психолога, имеет существенное значение в каком-то виде учебной или трудовой деятельности, то тем самым как бы постулируется, что между уровнем развития или степенью представленности данного психического качества и успешностью выполнения учебной и трудовой деятельности должна существовать определенная связь. Чаще всего предполагается, что чем выше представленность психического качества, тем должна быть выше успешность.

Это рассуждение и было, по-видимому, причиной того, что для установления валидности постоянно производили корреляции между успешностью в тесте, диагностирующем данное психическое качество, и теми видами успешности, которые так или иначе устанавливались в изучении психологом учебной и трудовой деятельности.

Следует заметить, что вопрос о валидности всегда представлялся одним из наименее ясных и наименее разработанных (Wallace S. R., 1965). Видный американский психолог Е. Гизелли (Ghiselli E., 1949), неоднократно изучавший состояние валидности применительно к исследованиям в области профессионального труда, показал, что коэффициенты корреляции, получаемые при реализации сопоставлений «тест — профессиональная успешность», обычно невысоки.

Были случаи, когда сопоставление давало отрицательный результат, то есть получалась обратная линейная зависимость: чем успешнее выполняется тест, тем ниже была профессиональная успешность. Получались и высокие совпадения. Но картина в целом всегда оказывалась весьма запутанной. По Гизелли выходит, что коэффициент порядка 0,40 — это даже «законная» характеристика возможной валидности.

Дело, однако, не в том, может или не может удовлетворить психолога коэффициент валидности такого порядка. Дело в другом: каков логический смысл этого коэффициента, о чем он говорит психологу, какова сама процедура извлечения информации о практической действенности теста или совокупности тестов. При безумной игре коэффициентами эти реальные вопросы остаются в тени.

Психолог, получивший коэффициент валидности порядка 0,40, может объяснить этот высокий коэффициент тем, что тест или тесты, которые, как он убежден,

244 Часть 3. Проблемы психологической диагностики

действительно раскрывают важные для учебной и трудовой деятельности стороны психики, не затрагивают некоторых других ее сторон, также имеющих большое значение. Так, интеллектуальный тест не касается сферы мотивации. Вследствие этого нужное психическое качество может быть представлено в достаточной степени и оно могло бы обеспечить успешность, но сам испытуемый неактивен, деятельность, осуществляемая им, протекает на невысоком уровне мотивации, поэтому и объективные результаты ее ниже возможных. С другой стороны, можно построить такое же рассуждение, но с обратным знаком: качество представлено в едва-едва удовлетворительной степени, но заинтересованность велика; следствие — результат деятельности выше ожидавшегося. Итак, испытуемые из одного — психологического — ряда несколько смещаются тут и там, когда они переходят в другой — учебно-трудовой — ряд, где их оценивают по их объективным достижениям. Это смещение и приводит к упомянутому коэффициенту.

Нередко и другие соображения приводятся исследователями:

• недостаточно объективная характеристика успешности со стороны тех лиц, которые ведают учебной или трудовой оценкой — имеются в виду учителя, инструктора, руководство цехов и пр.;

• влияние на оценку таких факторов, которые не могут в полной мере учитываться психологом, исследующим психические качества (неправильная организация труда, мешающая выявить подлинные возможности испытуемого, неудовлетворительное оборудование, на котором испытуемый вынужден учиться или работать, и т. д.).

Видимо, каждому непредубежденному человеку ясно, что коэффициент более высокого порядка при таких условиях и в самом деле не может быть получен, а если его получают, то это можно объяснить каким-то маловероятным стечением обстоятельств, а отнюдь не высоким качеством теста. Складывается впечатление, что психолог, получивший коэффициент другого порядка (положим, на уровне 0,70), имеет больше причин для беспокойства, чем тот, кто получил традиционный 0,40, а то и меньше. В общем, для получения низкой связи между результатами теста или тестов и оценками успешности причин более чем достаточно.

Все это представляется вполне резонным. Однако коэффициент порядка 0,40 все-таки невысок, неясно, как же проверить действенность теста, как найти для этого разумный критерий.

Зарубежные психологи разработали специальные номограммы, наглядно показывающие, что если психолог пользуется для профессионального отбора тестом, который имеет коэффициент валидности даже порядка 0,10, то все-таки он приносит известную пользу предприятию, лишь бы коэффициент валидности не был ни нулевым, ни отрицательным. Не вдаваясь в собственно математическую сторону обоснований полезности тестов при низких положительных коэффициентах валидности, обратимся к их логической стороне. Ход рассуждения тут таков: если никакого отбора нет или, что то же самое, коэффициент валидности тестов равен нулю, то предприятие имеет равные шансы получить и годного, и непригодного работника. Вероятность успешности принятых работников составляет 0,5 (от единицы). Но даже незначительный коэффициент валидности увеличивает вероятность

Раздел 1. Основные требования к конструированию и проверке психологических тестов 245

успешной работы вновь принятых, пусть и на небольшую долю. Чем выше коэффициент валидности, тем выше ожидается вероятность успешной деятельности лиц, принятых по их успешности в данном тесте. Такова логическая основа применения тестов даже с низкой валидностью (что она обязательно должна быть положительной, это явствует из тех же рассуждений). Изложенные здесь соображения, однако, ни в малейшей мере не проясняют другой стороны дела: почему психолог так безучастен по отношению к самой проверке теста на валидность?

Между тем если, приступая к проверке валидности, не довольствоваться сложившимися традиционными требованиями, то дело не покажется столь безнадежным. Много свежих идей относительно проверки валидности содержится в выдвинутом не так давно понятии «релевантного критерия», о чем нам уже приходилось писать (Гуревич К. М., 1970). При сопоставлении результатов тестирования с успешностью психологу рекомендуется пользоваться не оценкой руководителя, так как она, как это ясно всем, страдает множеством недочетов (избавиться от которых можно, лишь, вероятно, имея в качестве руководителя психолога-единомышленника), а реальным производственным показателем, на выявление которого направлен тест, скоростью выполнения определенного приема (приемов), точностью сенсорного различения, объективно оцениваемыми качествами принятого решения и т. п. Смысл применения релевантного критерия в том, чтобы найти в деятельности такие элементы или структуры, которые поддаются однозначной психологической интерпретации, так, чтобы эта интерпретация, выраженная в количественных и качественных характеристиках, могла выступить в виде оценочного ряда для сопоставлений.

Допустим, что такой релевантный критерий найден. Однако он еще не решает всех вопросов. В частности, остается вопрос мотивации — ведь хорошо или плохо работает не совокупность психических качеств, а человек, личность, заинтересованная в успехе своей деятельности. Решить такую задачу трудно, но нельзя от нее на этом основании отказываться. Так, можно при проверке валидности использовать специально отобранную группу высокомотивированных работников. Психолог, проверяющий валидность на неотобранной группе, заведомо затрудняет вывод логических заключений, к которым придет после своих сопоставлений. А задача его в том, чтобы их упростить.

Большие сомнения вызывает проверка «по одновременности» валидности тестов, предназначенных для отбора. Этот способ проверки состоит в том, что тестированию подвергается группа лиц уже работающих, уже имеющих опыт и достижения в изучаемой психологом деятельности. Неясностей в таком способе проверки более чем достаточно. Прежде всего, неизвестно, какими были эти ныне успешно выполняющие свою работу лица, когда они лишь начинали свою деятельность. Если речь идет об их психических качествах, таких как внимание, память, специальная интеллектуально-мыслительная деятельность, то ни один серьезный психолог не согласится с тем, что перечисленные и подобные им психические качества остались за время их деятельности неизменными. Бесспорно, что в деятельности происходил процесс развития, причем развития специфического, приноровленного к деятельности. Признав это, психолог оказывается перед новой задачей: а какой, собственно, уровень нужного качества необходим и достаточен, чтобы вступить

246 Часть 3. Проблемы психологической диагностики

в деятельность? Валидность, полученная на группе опытных людей высокого профессионального уровня, никак не дает оснований для решения вопроса о валидности для группы с полным отсутствием профессионального опыта. Группа профессионалов не репрезентативна для того, чтобы полученные на ней данные перенести на группу начинающих.

Высказанное выше сомнение не единственное. Допустим, что развитие высококвалифицированной группы признано. Однако столь же обязательно признать это развитие не только и даже не столько развитием «вообще», сколько нужно признать его развитием специальным. Актер умеет запоминать текст роли. Но это не значит, что он столь же успешно запомнит, положим, неперсонифицированный и эмоционально нейтральный текст научного сообщения. Память актера, как и любого другого профессионала, развивается в том направлении, которое дано его деятельностью. Поэтому испытание квалифицированных специалистов такими тестами, которые адресованы к функции неспециализированной, например, испытание у актеров памяти «вообще», может дать неожиданные результаты — может получиться так, что память актера, ежедневно запоминающего и воспроизводящего целые страницы текста, окажется хуже, чем память какого-либо другого специалиста. Валидность, проверяемая на выборке, составленной из профессионалов, окажется очень низкой или даже нулевой, хотя тест «вообще» исследует профессионально важную функцию. Допустим и другой путь — приближения психологического теста по его содержанию (по характеру заданий) к специфике профессиональных заданий; не лучше ли тогда перейти к рационально подготовленному тесту учета профессиональной успешности? Но применение такого рода теста означает, что психолог выявляет не что иное, как степень профессиональной подготовленности. Впрочем, иногда это и требуется.

Бывает, что психолог в погоне за приемлемым показателем валидности пробует и перебирает различные критерии и различные статистические приемы, окончательно упуская из виду логико-психологический анализ проверочной процедуры и забывая о доказательности полученных выводов. Этим, вероятно, отчасти вызывается застой в важнейшей области практической проверки значения психологических испытаний.

Между тем последовательное применение релевантных критериев на группах специалистов с высокой мотивацией и с различным стажем профессиональной деятельности могли бы привести к объективным оценкам валидности тестов, исследующих совокупность психических и психофизиологических признаков. На это требуются время и силы, но это один из способов разорвать порочный круг традиционного подхода к валидности.

В связи с изложенным необходимо сделать одно важное замечание. Все, что было сказано выше, относится к валидности по собственно психологическим диагностическим методикам. В области методик дифференциальной психофизиологии дело обстоит иначе, что обусловлено тем, что признаки, устанавливаемые методиками дифференциальной психофизиологии, отличаются стабильностью, устойчивостью. В дифференциально-психофизиологической литературе вопрос о валидности применительно к методикам этого рода нашел свое освещение (Гуревич К. М., 1970). Отметим, что корреляция, раскрывающая линейные связи,

Раздел 1. Основные требования к конструированию и проверке психологических тестов 247

не может при проверке дифференциальных психофизиологических методик служить адекватным приемом проверки валидности. Может быть, неполная адекватность корреляции сказывается и при установлении валидности собственно психологических методик, но этот вопрос заслуживает особого рассмотрения. Дело тут опять-таки не в покорном использовании кем-то предписанной процедуры, а в творческом, разумном и обоснованном подходе к выбору статистических приемов. Сам по себе ни один статистический прием не может быть назван ни хорошим, ни плохим, как ни один логический прием также не может быть назван ни хорошим, ни плохим. Все дело в их правильном использовании, в том, насколько они правомерны в данных конкретных исследованиях, насколько отвечают поставленной задаче.

Выбор приемов, которые использовались психологами при установлении надежности и валидности, носит отпечаток определенного психологического мировоззрения, весьма далекого от современного.

Психологическая позиция, выдвинувшая эти приемы, — это позиция метафизического понимания психических процессов, функций и качеств: все эти психические реальности как бы признаются неизменными. Встанем на время на эту позицию. Тогда нам станет ясно, что для проверки надежности нет лучшего приема, чем корреляции повторного тестирования через какой-то промежуток времени. С этой же позиции можно утверждать, что лица, которые сформировались как профессионалы, остались по своим психическим качествам такими же, какими они были, когда они лишь приступали к своей профессиональной деятельности. Возможно, что этот метафизический подход и затормозил творческое использование статистических приемов как аппарата доказательств современной психологической диагностики.

Одно из наиболее ярких выражений определенных теоретических воззрений в психологической диагностике связано с проблемой так называемой нормы.

В любом диагностическом исследовании психолог нуждается в том, чтобы как-то классифицировать испытуемых, входящих в экспериментальную выборку. Для этой цели используются различные статистические приемы, техническая сторона которых не может нас в этом сообщении занимать. Смысл этих приемов в том, чтобы в делении на группы не было субъективного произвола. Чтобы избежать этого, можно, например, использовать в качестве критерия особую статистическую величину — так называемое квадратическое отклонение, величину, которую в западной литературе именуют «стандартным отклонением». В принципе, использование этой величины ничего противозаконного в себе не содержит, квадратическое отклонение при нормальном распределении столь же удобно, как и перцентиляжные величины, предполагающие при других видах распределения деления ряда по его процентным соотношениям.

Если говорить о чисто статистической стороне дела, то она в самых общих чертах состоит в том, что среднее квадратическое отклонение есть величина, относящаяся к определенному виду распределения, именно к нормальному распределению, с кривой, напоминающей колокол. Нам в данном случае важно заметить одно весьма существенное для дальнейших рассуждений обстоятельство: нормальное распределение характерно для большинства биологических явлений. Возьмем,

248 Часть 3. Проблемы психологической диагностики

например, в качестве предмета изучения рост каких-нибудь особей — мышей, жуков, колосьев определенного вида, — если изучаемая выборка будет достаточно велика и представительна, то в каждом случае мы с большой вероятностью можем полагать, что получим нормальное распределение: очень большие и малые экземпляры будут представлены в небольших количествах, а экземпляры среднего — для данного вида — роста будут наблюдаться в относительно большом количестве. Чтобы графически отразить полученное распределение, нужно по оси абсцисс отложить единицы измерения, а по оси ординат — число случаев, приходящихся на каждую единицу. Это будет нормальное распределение, если график имеет форму колокола.

Ранее мы уже отмечали, что широкое применение психодиагностических методик было ознаменовано тем, что их стали также «подгонять» под нормальное распределение. Слово «подгонять» тут поставлено не случайно. Тесты именно подгоняли, чтобы получить нормальное распределение. Начал применять этот способ «совершенствования» тестов Термен из Стенфордского университета в США, когда он взялся за переработку шкалы Бине. Каждый хоть немного знакомый со статистикой и теорией вероятности психолог знает, что нормальное распределение сильно упрощает обработку и всю последующую технику использования результатов тестирования.

В частности, одно из преимуществ нормального распределения состоит в том, что открывает возможность использования «стандартного отклонения», которое дает определенные основания для разбиения выборки на группы. Известно, что при нормальном распределении в пределах х ± ²Ао должно находиться 50 % всех случаев, имеющихся в данной совокупности или выборке (л: и, соответственно средняя арифметическая и стандартное отклонение).

Норма для измерений признака будет находиться в этих границах. Это означает, другими словами, что в этих границах заключена та часть совокупности или выборки, которую можно считать наиболее типичной, характерной для нее. Когда распределение имеет форму колокола, оно симметрично, поэтому 25 % случаев окажутся за пределами нормы, превосходя ее, а 25 % также за пределами нормы, но будучи ниже ее, не достигая ее. При необходимости, пользуясь тем же стандартным отклонением, можно прибегнуть и к более дробному делению на группы, можно устанавливать границы групп, отделяя в ту и другую сторону от среднего арифметического по 0,5, и т. п.

Вернемся к делению совокупности или выборки на три группы. Исследователь, получивший по интересующему его признаку нормальное распределение, заранее постулирует, что в границы нормы войдет лишь часть взятой им выборки. Как должны толковаться по отношению к этой норме обе оставшиеся группы?

Такое толкование обычно приводит к смешению понятий собственно статистических и бытовых, неправомерно вошедших в психологию. Характеристики «выше нормы» и «ниже нормы», когда их относят к психологическим признакам, в особенности к результатам интеллектуальных тестов, приобретают общепонятный, но при этом лишенный научного содержания смысл. Так, можно сделать вывод — и он действительно делается, — что по признакам, которые измеряются интеллектуальными тестами, 25 % всего человечества находятся «ниже нормы»! И иногда

Раздел 1. Основные требования к конструированию и проверке психологических тестов 249

в группу «ниже нормы» включают как людей аномальных, так и здоровых, но якобы недостаточно умных.

Понятие нормального распределения вошло в психологическую диагностику вместе с тестами Стэнфорд—Бине. Вообще говоря, вряд ли можно возражать против того, чтобы распределение результатов тестирования было «подогнано» каким-нибудь способом, например специальным подбором задач к нормальному распределению. Но после того, как это сделано, кривые распределения следует рассматривать только со стороны приобретенных ими формальных технических преимуществ — их удобно разбивать на группы, они пригодны для корректного применения к ним некоторых эффективных формул для установления значимых связей и различий (по Пирсону — Браве, по Стьюденту и т. п.). Во многих случаях преимущества, получаемые при нормальном распределении, очевидны и бесспорны. Но, пользуясь ими, нельзя забывать, что сама-то нормальность распределения создана, так сказать, руками исследователя.

В психологической диагностике, поскольку она занимается измерениями явлений психики, зависящих от социального опыта испытуемых, нормальное распределение результатов тестирования не может быть правилом, а может быть лишь исключением. Если уж оно получилось, то причины его нужно специально выяснять, его нельзя толковать как проявление «закона природы», который не нуждается в объяснении, а сам все объясняет. В явлениях, детерминируемых законами социальной жизни, не имеет решающего значения игра тех сил, от которых зависит нормальное распределение биологических явлений.

Поэтому и интерпретация группировок, выделенных при распределении, должна быть весьма условной. И характеристики групп — «норма», «ниже нормы», «выше нормы» — имеют не бытовое, а формальное и условное значение.

Общество состоит из классов, социальных групп. Законы развития людей, входящих в эти группы, — это не имманентные законы самой психики, а законы социальные. Кривую нормального распределения можно получить, если брать в должной пропорции представителей разных по образованию социальных групп.

Весьма сомнительна подобная операция с точки зрения статистики. Ведь это представители групп, имеющих различный опыт, различное образование — оно нередко оказывается одним из решающих факторов успешности в тестовых психологических испытаниях, — как же можно их объединять в одну совокупность? Статистика говорит, что нельзя объединить в совокупность группы, которые имеют существенные различия между собою по измеряемому признаку.

Психологу не нужно доказывать, что люди, находящиеся в неодинаково благоприятных для развития условиях, вследствие этого и в самом деле развиваются неодинаково. Применяя же к ним — притом неправомерно — бытовое понятие нормы, рассуждение нужно строить наоборот: эти люди неодинаковы по развитию, и поэтому они находятся в неодинаково благоприятных условиях для развития.

Автор известной шкалы Д. Векслер пишет, что он старался подобрать для стандартизации своих тестов такую выборку, которая отражает те же пропорции различных групп населения, которые представлены в населении США: «Выборка, подобранная для стандартизации, должна представлять столь похоже, как возможно, ту популяцию, для которой предназначены тесты» (Wechsler D., 1955).

250 Часть 3. Проблемы психологической диагностики

Подобрав такую выборку, Д. Векслер получил распределение, близкое к нормальному. Вот как поступил автор. Он выделил и соответственно представил в экспериментальной выборке, предназначенной для стандартизации тестов, пять образовательных групп: до 8 лет обучения; от 9 до 11 лет; 12 лет; от 13 до 15 лет и 16 и выше лет обучения. Образовательный уровень в США обычно прямо связан социально-экономическим статусом, о чем автор не говорит.

Среди испытуемых, подобранных для стандартизации шкалы, для мужчин в возрасте 20-24 года было:

• прошедших до 8 лет обучения — 25 %;

• от 9 до 11 лет обучения — 23 %;

• 12 лет обучения—30%;

• от 13 до 15 лет обучения —16 %;

• 16 и более лет обучения — 6 %.

Эти пропорции соответствуют общеамериканским. Они дают, если разбить выборку на те же группы, которые были нами ранее использованы в рассмотренном примере, такое разбиение:

• обучение до 8 лет — 25 %;

• от 9 до 12 лет-53%;

• 13 и более-22%.

Автор шкалы получил распределение, близкое к нормальному. Но это достигнуто тем, что люди, относящиеся к различным социальным и образовательным группам, были неправомерно объединены в одну выборку и по их данным, что столь же неправомерно, выведена общая норма.

Речь не идет о том, что при обработке данных, полученных с помощью психологических методик, нельзя пользоваться «стандартным отклонением», нельзя разбивать испытуемых на группы и т. п. Речь идет о том, что при проведении всех таких статистических операций нельзя забывать и о содержательной стороне психологической диагностики.

Об общечеловеческих психологических стандартах правомерно говорить только при сравнении людей физически здоровых с людьми аномальными. Когда понятие нормы, полученное путем выделения некоторой средней представительной группы, начинает применяться в отношении социально неоднородных групп здоровых психически людей, то с таким решением нельзя согласиться. Совершенно ясно, что группы людей с различным социально-психологическим опытом имеют свои особенные характеристики по психологическим признакам и ставить их по результатам тестирования в один и тот же иерархический ряд недопустимо.

Проблема нормы обсуждается и в тестологической литературе. Ли Кронбах полагает, что от этого понятия в ряде случаев вообще следует отказаться. Он считает, что важно дать характеристику того, что умеет ребенок, достигший определенных результатов по тесту, а не ссылаться на его место в распределении относительно нормы. Видимо, суть дела должна быть выражена так: результаты по тесту следует сопоставлять с возможностями выполнения некоторых конкретных учебных и профессиональных задач, чтобы установить, какие из них посильны для лиц

Раздел 1. Основные требования к конструированию и проверке психологических тестов 251

с теми или другими баллами по тесту. Как считает Л. Кронбах, полученный балл не должен рассматриваться и как предел достижений данного лица, то есть этот автор придает тесту диагностическое, а не прогностическое значение (Cronbach L., 1972).

Все отчетливее вырисовывается некоторый общий подход к оценкам самих тестов как инструмента психологической диагностики и лиц, прошедших тестирование, не по имманентным критериям, а по результатам сопоставлений со значимыми критериями. Можно полагать, что для этого понадобится применение — для большего числа случаев — новых статистических приемов, вероятно — уравнений регрессии. Использование их поможет статистике выступить в своей роли аппарата доказательства психологической диагностики.