Свойства теста

Какие другие важные следствия мы можем вывести из метафоры «тест — оружие»? Эта метафора позволяет нам точнее и глубже осознать ряд инструментальных требований к тестам, которым тесты должны соответствовать, а также нормативы применения тестов. Я вовсе не собираюсь здесь перечислять все психометрические свойства тестов, но все-таки некоторые наиболее важные стоит упомянуть — хотя бы не строго, хотя бы чисто метафорически.

1. Надежность теста. Может ли быть надежным оружие, изготовленное в кустарной полуподвальной мастерской, как говорится, «на коленках»? Это оружие будет стрелять куда попало — иногда в цель, но чаще вбок, а иной раз может и просто разорваться в руках стреляющего. Тут уместно напомнить следующее: надежные тесты не создаются в крошечных лабораториях (и¹ тем более за письменным столом автором-одиночкой). Надежность теста не только проверяется на репрезентативной

Тест как оружие

(массовой) выборке, но просто не вырабатывается без обширной статистики. Репрезентативная выборка для стандартизации теста — это своеобразный полигон для обстрела нового оружия. Только после таких полевых испытаний конструктор теста может внести целенаправленные («зрячие») коррективы в первоначальную конструкцию своего оружия. Тем самым уже на примере этого одного свойства теста — надежности — мы видим, что нам дает в этом контексте метафора «тест — оружие». Плохое оружие не усиливает, а, наоборот, ослабляет пользователя, подвергает его риску. Но разве можно судить о качестве оружия вообще по образцам кустарного оружия? Плохими являются не тесты вообще, а ненадежные тесты.

2. Валидность теста. Напомним, что это мера пригодности теста целям психодиагностики, мера соответствия измеряемому свойству. Куда будет стрелять оружие? Это зависит не только от надежности самого теста, но и от пользователя. Ненадежный тест не может быть валидным. Эту аксиому теории измерения в данном контексте легко понять: если вы не попадаете с пяти шагов в силуэт, то о какой валидности, о каком соответствии теста измеряемому свойству может идти речь, ведь вы же можете попасть с помощью такого «теста» не во врага, а в «своего» — того, кто рядом стоит, то есть «цепляете» с помощью теста не целевое, а иное психическое свойство. Но если сам стрелок слепой, если он дальтоник, который не различает цвета мундиров, в которые одеты свои и чужие, если он к тому же паникер, то будет в панике палить даже из на-

дежного стрелкового оружия и по своим, и по чужим. Таким образом, мы легко формулируем важное следствие: тест не может быть валидным в руках непрофессионала. Вот вам и еще одна аксиома тестологии, которую, увы, так трудно бывает объяснить не только массовой аудитории, но и самим психологам, ибо при словах «надежность» и «валидность» в их сознании всплывают страшные и непонятные психометрические формулы. Поэтому эти понятия кажутся им скорее математическими, чем психологическими, то есть чуждыми их «гуманитарному интеллекту».

Опять же вернемся в этом контексте к критике тестов. Можно ли судить о тесте и, тем более, тестах вообще, если даже вполне качественное фабричное оружие передано в руки новобранцев-паникеров, которые то стреляют из пушки по воробьям (например, применяют тяжелую батарею IQ вроде теста Векслера для диагностики дефицита внимания), то бросаются с пистолетиком тщетно обстреливать бронированный танк (пытаются понять природу и содержательный смысл внутреннего конфликта по цветовым предпочтениям в тестике Люшера, пригодного, по моему убеждению, лишь для грубой оценки фона настроения). Любому мало-мальски сведущему в военном деле человеку как дважды два понятно: нет универсального оружия, и в разных условиях боя надо применять разное. Но психика человека — более тонкая, невидимая стороннему взгляду реальность, чем поле боя. И вот мы путаем все на свете: вялую позиционную перестрелку, активную артподготовку и яростную

А.Г. Шмелев

штыковую атаку в полный рост, когда пора доставать из-за пояса гранаты. Когда вы проводите какую-нибудь очень краткую пробу из нескольких заданий (несколько спрятанных фигур из теста Готтшальда, несколько чернильных пятен Рорша-ха), то следует все-таки отдавать себе отчет в том, что вы с такой же вероятностью наткнетесь на диагностически ценную информацию, с какой можно поразить стальной ДОТ с помощью легкой пехотной гранаты. Результата, скорее всего, не будет никакого! Только следует ли после этого делать вывод о том, что все тесты неэффективны? Я бы сказал, что многие одиночные психологические тес-тики — это очень слабое оружие против хорошо замаскированных укреплений, против глубоко эшелонированной обороны многоэтажной человеческой психики, которая нарабатывает ко времени социальной зрелости многие слои из весьма изощренных механизмов психологической защиты. Тут мы подходим к проблеме достоверности — проблеме соотношения сознательных и неосознаваемых механизмов психологической защиты от тестирования. Р. Кэттелл назвал это в свое время проблемой мотивационных искажений. Звучит красиво, хотя речь идет о некрасивых вещах — о более или менее осознаваемой лжи.

3. Достоверность. Это проблема фальсификаций. Сформулируем в этом контексте такой несколько парадоксальный профессиональ-

но-этический норматив: «Испытуемый имеет право на ложь». В самом деле, если тест — это оружие проникновения в человеческую психику, то испытуемый имеет право на самозащиту — на то, чтобы сопротивляться этому проникновению. В конце концов, можно оправдать испытуемого, сумевшего скрыть свои проблемы, свои дефекты, мобилизовавшись на социально-желательное выполнение теста: таким способом он проявляет в момент тестирования силу своих компенсаторных механизмов, умение решать задачки на моральное развитие, умение решать задачки на интеллектуальное развитие и т. п.⁴, хотя, возможно, в повседневной жизни он ведет себя вовсе и не так. Прочность бронированного корпуса его судна, обеспечивающая ему непотопляемость, оказалась сильнее того удара, который психолог нанес из своего оружия. Честь и хвала такому испытуемому. Но этот тезис имеет и такое важное следствие: положительные результаты тестирования имеют меньшую ценность, меньшую предсказательную силу, чем негативные результаты.

Таким образом, если мы наконец разберемся в базисных представлениях о сущности теста, мы научимся адекватным образом его применять в социальной практике. До тех пор, пока мы неверно трактуем сущность теста, не видим адекватным образом ограничений в практике его использования, мы совершаем серьезные

⁴.

Тест как оружие

ошибки. Нужно ли запрещать распространение оружия в обществе, где никто толком не умеет грамотно им пользоваться? По-видимому, все-таки разумнее не запрещать вовсе, а разумно ограничить более узким кругом подготовленных аттестованных пользователей! И предоставлять им следует только сертифицированные инструменты, а не какие попало. Если горе-строители возводят многоэтажные здания на болотах или зыбучих песках без закладки прочного фундамента, т. е. нарушают все правила технологии безопасного строительства, то таким образом здание не следует строить вообще; это не значит, что следует запретить и архитектурные институты, и все заводы по производству стройматериалов, и сами строительные организации. Если кто-то использует определенные медицинские препараты не по назначению, превращая их в наркотики, то это не значит, что следует запретить фармацевтическую промышленность, хотя строгость в контроле за распространением опасных

медицинских препаратов повысить, конечно, придется.

Тесты и экспертные оценки

По моему убеждению, стандартизованные тесты не дают основания для окончательного положительного диагноза (т. е. диагноза о пригодности к определенной деятельности), для этого они должны быть дополнены экспертными оценками (или другими менее стандартизованными диагностическими процедурами, включающими экспертные оценки в той или иной мере, как это, например, происходит в проективных методиках).

Таким образом, позитивный исход тестового испытания выступает логически необходимым, но не достаточным условием для окончательного позитивного заключения. Поскольку мне как тестологу, увы, хорошо известно, что с элементарной логикой у наших сограждан порой возникают серьезные проблемы⁵, схематизируем сказанное в виде следующей таблички.

	Вывод о пригодности	Вывод о непригодности
Позитивный исход теста	Нельзя сделать	Нельзя сделать
Негативный исход теста	Нельзя сделать	Можно сделать

⁵ Это показали, в частности, тестологические обследования десятков тысяч наших выпускников школ и абитуриентов вузов в рамках проекта компьютеризованного тестирования «Телетестинг» (Шмелев, 2000): наши российские учащиеся в массе своей демонстрируют поразительную беспомощность при решении простейших текстовых логических задачек, хотя при этом «щелкают как орешки» сложные математические уравнения (правда, опять-таки не имея ни малейшего представления о том, какие физические процессы могут быть описаны с помощью этих формально-математических моделей).

А.Г. Шмелев

Поясним это на содержательном примере. Вначале возьмем самый тривиальный случай, далекий от психологии — уже упомянутый экзамен на знание правил дорожного движения. Если кандидат сдал тест по правилам, то ему еще нельзя выдавать права: он должен пройти после этого менее формализованный экзамен на практическое вождение. Если же кандидат провалил тест, то он не допускается до следующего испытания. В этом контексте самое время также сделать и такую оговорку: отрицательный результат тестирования — не приговор. Всем понятно, что правила можно выучить, прийти снова и пересдать экзамен.

Возьмем теперь менее очевидную (не оформленную пока нормативно) процедуру тестирования кандидата при приеме на работу на предмет уровня так называемой «корпоративной лояльности». Предположим, что испытуемому при этом предъявляется совершенно примитивный тест-опросник, содержащий лобовые вопросы типа «Вам никогда не доводилось обманывать учителей при сдаче экзаменов в школе?» Как мы говорили выше, испытуемый в этом случае использует свое право на фальсификацию и отвечает: «Вер-

но, не доводилось». И какой вывод в данном случае мы сделаем? Никакой! Но если испытуемый вдруг сам в порыве откровенности отвечает: «Неверно, доводилось», — то по крайней мере насторожиться следует.

В еще большей степени этот принцип относится к базовым тестам на элементарные профессиональные знания. Если кандидат в бухгалтеры не может ответить на вопрос конкурсного теста-опросника о том, что такое «план счетов», то следует ли дальше заниматься с этим кандидатом? Следует ли тратить дорогое время квалифицированных экспертов на детальное интервьюирование подобного кандидата? Конечно, нет*.

Таким образом, я предлагаю буквально везде, во всех отраслях практики использовать тест как первичный дешевый и формализованный фильтр, предшествующий применению более сложных и дорогих экспертных процедур. В какой-то мере подобной логикой руководствуются в настоящее время специалисты по оценке персонала, которые применяют технологию «Ассессмент-центр» (2003).

Таким образом, приведенную выше табличку следует изменить таким образом:

	Позитивный исход экспертной оценки	Негативный исход экспертной оценки
Позитивный исход теста	Вывод о пригодности	Вывод о непригодности
Негативный исход теста	Вывод о непригодности	Вывод о непригодности

⁶

Тест как оружие

Процедура	Прогностическая валидность
Интервью	0,1-0,3
Психологическое тестирование	0,3-0,5
Квалификационное тестирование	0,4-0,6
Ассессмент-центр	0,5-0,7

Как видим, для позитивного общего заключения требуется конъюнкция (логическое «И») двух независимых событий — позитивного тестового исхода и позитивного исхода экспертной оценки. Отсутствие хотя бы одного из позитивных исходов не дает возможности делать общий позитивный вывод.

Качество такой двухфильтровой системы отбора в любом случае выше, чем любой однофильтровой — основанной только на экспертных оценках или только на тестах. А разговоры о том, что в нашей стране результаты тестирования очень легко купить (увы, такие разговоры часто затевались, например, на дискуссионном форуме портала ЕГЭ), носят либо сознательно демагогический характер, либо опять-таки выявляют дефект логического мышления. Там, где можно купить результаты тестирования, как правило, можно купить и результаты экспертной оценки, и нужно еще специально изучать, какой из фильтров по факту является менее продажным. Если даже при широком распространении теста происходит утечка ключей, негативный исход тестирования продолжает сохранять свою ценность, но особенно важно, чтобы после позитивного исхода в дело вступали неподкупные эксперты. Если мы связываем результаты двух процедур логическим «И», то числовые результаты теста и экспертной оценки правильнее не суммировать, но умножать, то есть агрегировать не аддитивно, а мультипликативно:

О= ТхЕ,

где Т — результат теста, Е — результат экспертной оценки,

О — общая оценка. Если любой из сомножителей принимает нулевое значение (оказывается ниже минимального порога), то общий результат оказывается нулевым независимо от значения второго сомножителя.

1 2 3 4 5 6 7

Подборка статей по вашей теме: