Надежность психологических тестов (опыт психологической интерпретации)

ЧАСТЬ 3

Проблемы психологической диагностики


РАЗДЕЛ 1

Основные требования

К конструированию и проверке

Психологических тестов

Надежность психологических тестов (опыт психологической интерпретации)

По мере того как расширилось практическое применение тестов и увеличилось их изготовление, все настоятельнее становилась необходимость разработки не­которых, методически обоснованных требований к подобным психологическим пробам. Эти требования складывались в ходе самой работы над тестами и над их совершенствованием, а большее или меньшее соответствие тестов этим требо­ваниям свидетельствовало об их качестве. Кроме того, требования, выступая в ка­честве некоторого критерия методического уровня тестов, давали возможность оградить психологию от всевозможных безграмотных подделок, претендующих на диагностическо-прогностическое испытание психологических особенностей людей.

Изготовление методически грамотного теста представляет большую и трудоемкую задачу, решение которой предполагает проведение специальных исследований. Если даже не касаться теоретической основы тестов, а остаться лишь в рамках самой по себе методики, то следует признать, что путь от первого рабочего варианта до со­здания практически приемлемой пробы требует не одного года систематического труда. И, в конце концов, даже США, страна, выпускающая до 4/5 современных тестов, не может похвалиться тем, что они стоят на уровне современных методи­ческих вопросов.

Следует сказать, что разработка формальных требований к психологическим тестам, начавшаяся еще в 20-30 годы XX века, сыграла положительную роль в раз­витии этого направления исследований. Но сейчас понятно, что при всей необхо­димости формальных требований, они не дают всего того, что позволило бы полно и всесторонне оценить тест даже с методической стороны. Особенно актуальным представляется в свете сказанного истолкование требований к надежности и валид-ности тестов.

Мы уже обращали внимание на то, что о значении этих требований можно судить хотя бы по факту того, что фирмы и издательства, торгующие тестами в США, как правило, указывают в рекламных проспектах коэффициенты надежности и валид-ности своей продукции, а также и то, на каких выборках и в какие годы эти коэф­фициенты получены. Но такая общепризнанность указанных требований не озна­чает, что они не нуждаются в дальнейшем уточнении; и действительно, вопросы надежности и валидности активно обсуждаются в тестологической литературе.


Раздел 1, Основные требования к конструированию и проверке психологических тестов 229

Для дальнейшего анализа важно еще раз уточнить основные понятия.

Надежность — такой признак психологического теста, который позволяет судить о том, насколько внушают доверие полученные при его применении данные, насколько обоснованно ожидание исследователя, что при сохране­нии известного минимума неизменных условий, испытуемые в выборке останутся и при повторных испытаниях примерно на тех же порядковых (ранговых) местах. Уровень коэффициента надежности и его статистическая значимость укажут на вероятность осуществления этого ожидания.

Валидность — признак теста, по которому можно судить, насколько данные, полученные при применении теста, совпадают с показателями какой-то де­ятельности испытуемых: учебной, спортивной, производственной. Валид­ность — это действенность теста, характеризующая возможность ставить практически важный диагноз и в некоторых случаях намечать прогноз. Мож­но полагать, что исследователь, применяющий тесты, обычно рассчитывает в дальнейшем на практическое использование полученных результатов, то есть имеет в виду валидность. Вопрос о валидности потребует специаль­ного рассмотрения.

Продолжая обсуждение выделенной проблемы, напомним, что надежность и валидность взаимосвязаны. Надежность есть необходимое, но не достаточное условие валидности, из чего следует, что надежные показатели теста не могут быть валидными. Но надежные показатели сами по себе не представляют валидности.

Простое рассуждение подтверждает справедливость приведенного высказыва­ния. В самом деле, если тест отличается низкой надежностью, то это значит, что его показатели весьма сильно варьируют от одного испытания до другого. Испытуе­мый, который в одном испытании выступал как представитель наиболее успешно работавшей части, в другом может попасть в наиболее неуспешно работающую часть выборки. Сопоставлять данные одного из этих испытаний с показателями какой-то деятельности испытуемых очевидно бессмысленно. С другой стороны, высокая надежность тоже еще не дает права считать, что результаты теста могут быть по существу сопоставимыми с показателями деятельности. Успешность или неуспешность по тесту может представлять собою нечто самодовлеющее или не-соотносимое с какими-либо другими уместными для данного исследования внеш­ними — по отношению к тесту — показателями. Поэтому испытания с применением заданий психологического характера, надежность и валидность которых по отно­шению к данной популяции или выборке не установлены, не могут иметь никако­го диагностического практического значения, хотя их при начальном этапе подго­товки теста приводят лишь как первый шаг исследовательского поиска.

Во второй части этой книги мы уже касались данной темы в связи с проблемой надежности психофизиологических показателей (см. раздел 2, подраздел 2.2). Напомним, как устанавливается надежность психологического теста, и продолжим обсуждение этого вопроса.

В тестологической литературе описываются несколько способов, рекомендуе­мых для этой цели.

1. Повторное проведение испытаний тем же тестом через какой-то срок, дли­тельность которого определяется характером теста и задачами исследования.


230 Часть 3. Проблемы психологической диагностики

2. Проведение испытаний двумя вариантами, двумя различными «формами» теста, обычно построенными по одному принципу.

3. Разделение, «расщепление» теста на две половинки, обычно на половинки, состоящие из четных и нечетных заданий.

4. Проведение двух эквивалентных форм теста. Этот способ представляет со­бою уточнение 2-го способа1.

В установлении надежности сопоставляют, таким образом, два получаемых показателя и чаще всего прибегают к вычислению коэффициента корреляции по Пирсону — Бравэ или по Спирмену. Надежность тем выше, чем больше получен­ный коэффициент приближается к единице, и наоборот. Оставаясь в пределах фор­мального анализа, можно отметить, что коэффициент корреляции будет тем выше, чем меньше дисперсия, то есть разброс данных, получаемых конкретным испыту­емым по тесту. Если по одному из сопоставляемых показателей испытуемый ока­жется в верхней части таблицы, составленной по убыванию успешности, а по дру­гому показателю в нижней ее части, то очевидно дисперсия данных по тесту — по крайней мере в данной выборке — велика и не позволяет делать вывод о том, како­ва, собственно, его характеристика по результатам этого психологического иссле­дования. Напротив, чем дисперсия меньше, тем больше оснований для определен­ных психологических выводов. В этом смысле корреляция может дать достаточ­ную информацию для суждения о надежности.

Представим себе, исследователь поставлен перед таким фактом: надежность разрабатываемого им теста оказалась слишком низкой. Что же делать, как доби­ваться ее повышения?

Очевидно, что даже внимательное ознакомление со способами установления надежности приводит к заключению, что дисперсия, снижающая уровень коэффи­циента корреляции, зависит не от одной, а от нескольких различных причин.

В самом деле, проверяя надежность способом расщепления, исследователь по­лучает информацию о внутренней однородности теста, о его гомогенности. Если тест — по составу включенных в него заданий — разнороден, то это обнаружится в том, что при случайном его разделении на половинки испытуемые будут выпол­нять разнородные по своей психологической трудности задачи, и вряд ли можно ожидать, что их успешность в каждой из этих половинок будет одинаковой. При однородности заданий можно полагать, что большой разницы в успешности по половинкам не будет. Следовательно, дисперсия в этом способе показывает, насколь­ко однороден тест.

Совсем другую информацию получает исследователь при повторении того же теста через какой-то срок. Дисперсия в таком случае может зависеть от того, что тот процесс, который испытывался тестом, изменился. Почему это произошло, на этот вопрос статистика не ответит. Но факт большего или меньшего изменения процесса по тому параметру, на который направлен тест, она обнаружит и зафик­сирует. Вопрос же о гомогенности теста в данном способе не актуализируется.

1 Нам представляется, что в некоторых экспериментах следует учитывать воздействие на надежность некоторых неформализуемых условий, напр., личность экспериментатора.


Раздел 1. Основные требования к конструированию и проверке психологических тестов 231

И второй, и четвертый способы выдают совсем особую информацию — это ин­формация о том, насколько близки — по существу — две различные «формы» тес­та, два его варианта. Исследователь может считать, что если эти две формы при испытаниях дали одинаковые или близкие результаты на избранной им выборке, то из этого следует, что при разработке теста найден достаточно отчетливый пси­хологический признак для испытания. В этом случае вновь ставится вопрос о го­могенности, но уже не для одного теста, а для теста и варианта, для двух более или менее эквивалентных «форм».

Выходит, что понятие «надежность» имеет совершенно различный смысл в за­висимости от того, какой из способов исследователь возьмет. Поэтому нельзя при­знать удовлетворительным решение, при котором утверждается, что все четыре способа представляют собою оценки повторений показателей по тесту и в одних случаях тот, а в других — иной из способов обеспечивает получение лучшей меры (надежности). Но дело не в лучшей или худшей мере надежности, дело в том, что это меры разной по существу надежности. Скорее можно согласиться с авторами «Стандартных требований...», которые полагают, что коэффициент надежности в современном понимании — это родовой показатель, охватывающий несколько ее дифференцированных видов, и каждый вид имеет свой особый смысл (Standards for Educational and Psychological Test, 1974). Однако о том, что обусловливает эти различные виды надежности, от чего зависит малая или большая дисперсия, вли­яющая на коэффициенты этих различных видов надежности, — обо всем этом в «Стан­дартных требованиях...» ничего не говорится.

По-видимому, было бы совершенно нелогичным, давая характеристику надеж­ности, сообщить какой-то коэффициент без раскрытия того, каким способом он определен и почему автор считает, что надежность в данном случае должна быть представлена именно таким коэффициентом. Очевидно, необходимо достаточно обоснованно истолковать эти различные по своей сущности коэффициенты.

Что же устанавливается при сопоставлении результатов по двум половинкам теста (способ расщепления)? Более всего оснований считать, что так устанавлива­ется надежность самого теста как диагностического инструмента. Несомненно, что следует считать надежным только тот тест, который состоит из однородных и при­том равно трудных задач. Оценка успешности работы испытуемых выводится из общего числа правильно выполненных ими заданий. Если тест отвечает своему назначению как диагностический инструмент, то можно полагать, что в любой из произвольно выбранных его половинок испытуемый должен правильно выполнить примерно одинаковое число задач. Правильность этого предположения исследо­ватель проверяет, вычисляя коэффициент корреляции между результатами, пока­занными испытуемыми по двум половинкам теста.

А сравнение результатов, показанных испытуемыми при первом и втором, по­вторном, тестировании имеет совсем другой смысл. Оно говорит о том, насколько устойчиво, стабильно то свойство психики (функция, умение, способность и пр.), для диагностирования которого был применен тест. Оставим пока открытым во­прос о том, чем объясняется устойчивость или изменчивость диагностируемого свойства. Важно, что коэффициент корреляции, вычисляемый в этом случае, указывает на степень стабильности диагностируемого свойства. Об этом будет


232 Часть 3. Проблемы психологической диагностики

свидетельствовать сохранение каждым испытуемым своего порядкового места в выборке (в рангах или в сигмальных единицах) при первом и повторном приме­нении теста через определенный промежуток времени.

В такой интерпретации ясно обнаруживается, что разные способы установле­ния надежности относятся по существу к разным объектам. При вычислении ко­эффициента между результатами, показанными в каждой из двух половинок теста, устанавливается надежность самого теста, при вычислении того же коэффициента между результатами первого и второго испытания устанавливается стабильность диагностируемого свойства.

Весьма возможно, что невысокая надежность теста самого по себе (способ срав­нивания половинок) окажет неблагоприятное воздействие и на результаты как первого, так и повторного испытаний. Поэтому следует заранее позаботиться о том, чтобы такое воздействие было устранено или сведено к минимуму. Для этого нуж­но соблюдать естественную очередность установления надежности: сначала нужно проверить надежность теста, добиться путем устранения ненадежных задач над­лежащего его качества, как измерительного инструмента, а затем переходить к уста­новлению надежности диагностируемого свойства.

Что же касается способов установления надежности теста, заключающихся в сопоставлении двух параллельных или эквивалентных форм-вариантов, то вы­воды из таких сопоставлений скорее можно понять как аргумент в пользу психо­логической значимости единого принципа, положенного исследователем в ос­нову создания того и другого варианта теста. Принцип проверяется путем срав­нения результатов успешности испытуемых, выполнявших две подготовленные исследователем формы или два варианта теста. С точки зрения применения теста эти способы естественнее всего толковать как изучение возможности взаимоза­меняемости вариантов теста. Но сколько-нибудь убедительного ответа на вопрос о надежности каждого из вариантов эти способы, по-видимому, не могут дать. О не­определенности выводов, получаемых при сопоставлении двух форм или вариан­тов теста для установления надежности, пишут и авторы «Стандартных требова­ний...» (Standards for Educational and Psychological Test, 1974). Поэтому, по край­ней мере до тех пор, пока не будет предложено новых толкований этих способов, применение их для установления надежности представляется необоснованным.

Выше было сказано, что способ разделения теста на две половины позволяет охарактеризовать надежность самого теста как диагностического инструмента, а способ повторного тестирования дает материал для суждения о надежности (или стабильности) исследуемого свойства психики. Употребление слов «надежность теста и надежность свойства психики» не должно маскировать важнейшей специ­фической черты психологических тестов — их результаты, итоги работы испытуе­мых всегда являются продуктом взаимодействия испытуемого (со всеми присущи­ми ему к моменту испытания особенностями) и ситуации психологического испы­тания. Здесь испытуемому представляется тест с его конкретной наполненностью: словами, рисунками, заданиями, требующими логико-перцептивных действий, от выполнения которых зависит успешность его работы. Надежность теста и на­дежность (стабильность) диагностируемого психического свойства не существу­ют «вообще», они всегда выступают как продукт контакта конкретной ситуации


Раздел 1. Основные требования к конструированию и проверке психологических тестов 233

испытания с конкретными выборками и совокупностями испытуемых. На первый взгляд высказанные суждения кажутся ненужной тривиальностью — каждому ясно, что никак по-другому получить сведения о надежности нельзя. Однако сле­дует принять во внимание специфические, укоренившиеся у неосведомленных людей мнения о тестах, чтобы согласиться с тем, что дополнительные разъяснения по этому пункту не окажутся лишними.

Вот один, далеко не охватывающий всей сложности ситуации пример: испытуемому предлагается вычеркивать из четырех слов одно, то, которое «не подходит к трем остальным», — это задание из теста на классификацию. Тест исследует простую опе­рацию логического обобщения: нужно найти такой ярко выраженный функциональ­ный признак, который присущ трем объектам и отсутствует у четвертого. Даны сло­ва: репа, капуста, морковь, свекла. Ученик четвертого класса одной из московских школ при выполнении теста вычеркнул слово «свекла»; при опросе мальчик объяс­нил, что первые три овоща можно есть сырыми, а свеклу — только вареной. Впрочем, он не был твердо уверен в правильности такого решения. Хотя задание было выпол­нено, но собственное решение осталось у испытуемого сомнительным, и возможно, что при повторном тестировании он выбрал бы другое решение. У ребят того же воз­раста, проживающих в сельской местности, задание, напротив, не вызывало ни ма­лейших сомнений: тотчас по прочтении вычеркивалось слово «капуста» по ясному для них признаку: остальные три овоща — «корешки».

Как известно, опрос испытуемых после выполнения теста обычно не практику­ется — в том и состоит удобство тестирования, что за короткое время — порядка одного часа или немногим более — можно получить некую информацию о психо­логическом признаке, свойственном целой группе испытуемых. Нет и ясных мето­дических правил — как использовать данные такого опроса.

Поэтому исследователь, как правило, не узнает, чем руководствовался испы­туемый, который пришел к этому, а не к иному решению, выполняя тест. Только обратившись к процедурам, которые предшествуют выходу теста в свет, иссле­дователь при изучении результатов применения теста в городских и сельских школах мог бы обратить внимание на то, что есть задачи, которые снижают на­дежность теста в одних случаях (в городских условиях) и не снижают в других.

В свое время Б. Саймон (1958), анализировавший применение интеллектуаль­ных тестов в английской школе, обратил внимание на то, что авторы включают в свои тесты задания, состоящие из непонятных для некоторых испытуемых слов. Он с полной ясностью показал, что слова, вошедшие в словарь ребенка одного со­циального слоя, могут быть неизвестны и непонятны ребенку из другого социаль­ного слоя. Тесты, о которых писал Саймон, были рассчитаны на английского ре­бенка из обеспеченных слоев населения, с достаточно высоким уровнем образова­ния окружающих его людей. Все, что пишет данный специалист, — абсолютно верно. Но дело не только в этом: дело и в том, насколько эти функциональные при­знаки освоены испытуемыми в их повседневной жизни и практике.

Если бы исследователь опросил испытуемых, известно ли им, что такое свекла, капуста и т. д., то можно утверждать, что не нашлось бы испытуемых, которые этих овощей бы не знали (речь идет, положим, об испытуемых, проживающих на боль­шей части территории СССР, жители Африки, возможно, о подобных овощах не знают).


234 Часть 3. Проблемы психологической диагностики

Но «знать» это одно, а уметь логически обработать — другое. Последнее зави­сит не от одного владения правилами логической обработки, но и от признаков, выделяемых для такой обработки.

Поэтому специфика материальной наполненности теста, с одной стороны, и осо­бенности выборки или совокупности испытуемых — с другой, приводят в различ­ных их сочетаниях к неодинаковым характеристикам надежности одного и того же психологического теста при его повторных проверках. Это признается современ­ной тестологией. Как можно заключить, тестологи не считают надежность неотъем­лемым признаком самого теста. Отсюда возникают требования к четкому описа­нию выборок, на которых устанавливалась надежность.

Так, авторы «Стандартных требований...» пишут:

«В руководящих указаниях по применению теста при сообщении данных о надежно­сти... выборки должны быть описаны достаточно подробно, чтобы лицо, пользующееся тестом, могло судить, в какой мере приведенные данные приложимы к тем испытуе­мым и к тем проблемам, с которыми оно имеет дело». В комментарии, сопровож­дающем это требование, содержатся такие указания: «...надежность теста, пред­назначенного для отбора работников, должна быть установлена путем тестирования кандидатов (из числа которых будет произведен отбор), а не студентов колледжа и не лиц, уже состоящих на работе» (Standards for Educational and Psychological Test, 1974, § Г. 2).

Мало того, выдвигается и такое пожелание: «В руководящих указаниях по примене­нию теста следует представлять демографическую информацию — распределение испытуемых по возрасту, полу, социально-экономическому и интеллектуальному уровню, трудовому статусу, биографии и времени пребывания в данной группе» (Standards for Educational and Psychological Test, 1974, § Г. 2.21).

Из сказанного вытекает, что исследователя не может удовлетворять информа­ция о том, что надежность теста по сведениям, которые приводятся автором теста, достаточно высока. Совершенно необходимо проверить эту надежность в тех усло­виях, в которых тест будет применяться, с учетом всех тех особенностей, которые присущи интересующей исследователя выборке или популяции.

И сами диагностируемые свойства обнаружат себя по-разному, в зависимости от того, какой материал и какой выборке будет предъявлен для работы. Допустим, диагностируется некое элементарное умение обобщать, однако степень познаннос-ти испытуемыми материала, на котором изучается это умение, жизненный опыт в выделении функциональных признаков, подлежащих обобщению, — все это не­избежно отразится на конечных результатах работы испытуемых. Следователь­но, диагностироваться будет не одно лишь элементарное умение обобщать, но и то, насколько близки испытуемым конкретные объекты, предлагаемые им в тесте.

Известно, что нередко испытуемые дают абсурдные ответы на вопросы или за­дачи теста, хотя, казалось бы, эти вопросы и задачи ничего трудного в себе не со­держат. Если исключить из рассмотрения возможные случаи патологии и оставать­ся в рамках работы с людьми, обладающими нормальным мышлением, то абсурд­ные ответы, по-видимому, можно объяснить тем, что испытуемый, не имея опыта логической обработки объектов, в которых представлены задачи теста, начинает искать ответы по ассоциации, по случайным реминисценциям и т. п. Такого рода


Раздел 1. Основные требования к конструированию и проверке психологических тестов 235

ответы не должны обмануть психолога-экспериментатора: понятно, что он, как специалист, не имеет права их оценивать в качестве доказательства алогичного мышления данного субъекта. Скорее всего, подобные ответы нужно отнести к ка­тегории так называемых «вынужденных». Испытуемый считает себя обязанным (раз он согласился участвовать в опыте) что-то ответить. Но он не умеет логиче­ски обрабатывать чуждый ему материал, у него нет такого опыта, само осознание правил такой обработки ему никогда ранее не требовалось. Это может быть и не единственная, но существенная и часто встречающаяся причина нелепых ответов. Заметим, что в истории применения тестов встречались исследования, в которых авторы описывали случаи тестирования своеобразных по национально-культурно­му составу выборок и на основании полученных результатов пытались делать за­ключение о каких-то особенностях мышления участников тестирования. Между тем здесь было бы более уместно говорить не об особенностях мышления как тако­вого, а о своеобразии словарно-понятийного запаса испытуемых и о сложившихся в их практике способах его логической обработки. В не столь резко выраженном виде вопрос этот постоянно стоит перед психологом. Поэтому надежность, уста­новленная на одной выборке, совсем не обязательно будет воспроизведена на лю­бой другой.

Сказанное относится не к одним лишь интеллектуальным тестам, но также и к перцептивным, моторным и всевозможным тестам «специальных способнос­тей». Вообще нет психологических тестов, которые не затрагивали бы прошлый опыт испытуемых, их знания и умения. Отсюда вытекает, что материальная напол­ненность теста, объекты, из которых построены задания, действия, которые нужно выполнить испытуемым, — все это ставит выборки, представляющие различные совокупности в не вполне одинаковые условия, а следовательно, коэффициенты надежности, полученные на различных выборках, могут сильно расходиться меж­ду собою.

Представляется необходимым более подробно остановиться на том, как долж­на устанавливаться надежность испытуемой функции. Адекватный прием уста­новления этой надежности — повторное тестирование. Однако при использова­нии этого приема перед психологом неизбежно встает такой вопрос: если тесты действительно испытывают психологические свойства или функции, то совершен­но неизбежно то, что эти диагностируемые признаки лишь в исключительных слу­чаях останутся через достаточно длительный срок по своему уровню неизменны­ми. В общем, чем короче срок от первого до второго испытания, тем — при прочих равных условиях — больше шансов, что диагностируемые психологические при­знаки сохранят зафиксированный уровень первого испытания, а чем срок больше, тем шансы на сохранение уровня будут ниже. Следовательно, как будто целесо­образно проводить повторное тестирование через короткий срок после первого. Но тут есть и другая сторона дела: если повторить тестирование через небольшой срок, то испытуемые — по крайней мере, некоторые из них — попытаются воспро­извести свои прежние ответы по памяти и, следовательно, отойдут от смысла вы­полнения заданий.

Вряд ли можно подсказать исследователю, какой срок можно считать оптимальным (хотя такие сроки указываются некоторыми авторами руководств по тестированию).


236 Часть 3. Проблемы психологической диагностики

Специалист, исходя из психологической сущности теста, условий, в которых тест предлагается испытуемым, считаясь с характеристиками групп испытуемых, дол­жен сам выбирать такой срок. Естественно, что выбор должен получить научное обоснование с учетом только что перечисленных и, возможно, каких-то еще момен­тов. Так, например, если диагностируемое свойство психики таково, что как раз в период проведения тестирования оно интенсивно развивается, то при проведе­нии повторных испытаний вряд ли можно даже при относительно небольшом раз­рыве во времени между повторным и первым испытаниями рассчитывать на по­лучение высокого коэффициента надежности — процесс интенсивного развития, очевидно, приведет к тому, что обозначится разница между испытуемыми: одни пройдут его с большим, другие — с меньшим успехом, а это, в свою очередь, может зависеть от мотивации, от усвоенных приемов работы над материалом, контактов с учителями и многого другого. Можно полагать, что менее интенсивный процесс развития в данной выборке испытуемой функции может обеспечить более высо­кие показатели надежности.

Поэтому нельзя признать достаточным простое указание на то, что проводилось повторное тестирование и что при корреляции установлен такой-то коэффициент надежности. Исследователь, предлагающий читателю результаты своего тестиро­вания, возможно претендующий на популяризацию своей методики, должен крат­ко и ясно описать не только процедуру установления надежности, но и обоснова­ние избранного им срока от первого до повторного тестирования. Психологический тест, диагностирующий свойство, которое в период испытания находится в процес­се интенсивного развития, допустим умение обобщать (во время прохождения некоторых разделов курса математики), может характеризоваться не очень высо­ким коэффициентом надежности, что, разумеется, не может быть истолковано как недостаток методики. Иными словами, коэффициент надежности, получаемый при сопоставлении первого и повторного тестирования, не следует рассматривать толь­ко с его узко формальной стороны, по его абсолютному значению, он должен ин­терпретироваться как показатель определенных изменений, развития исследуемо­го свойства. Вероятно, в некоторых случаях исследователю, представляющему свой тест, следовало бы рассмотреть по частям ту выборку, на которой устанавливалась надежность. При таком рассмотрении выделится часть выборки, люди, прошедшие сходный путь развития, а также другая часть, где развитие испытуемых шло осо­бенно быстрыми темпами, и часть выборки, где развития у испытуемых практи­чески совсем нельзя заметить. Каждая часть выборки заслуживает специального анализа и истолкования.

Совершенно другие требования к надежности должны быть предъявлены к ме­тодикам (или тестам), диагностирующим стойкие природные, а тем более — гене­тически обусловленные психофизиологические особенности, например свойства нервной системы в их физиологических показателях. Коэффициенты надежности при сопоставлении первого и повторного испытания даже при значительных сро­ках, отделяющих первое от повторного, тут должны быть достаточно высоки. Толь­ко специфические функциональные состояния испытуемых могут снизить эту на­дежность. Таким образом, вопрос о надежности того психологического или психо-


Раздел 1. Основные требования к конструированию и проверке психологических тестов 237

физиологического свойства, которое испытывается тестом, не решается всегда од­нозначно. Решение зависит от сущности самого диагностируемого свойства.

Мы осветили некоторые важные стороны вопроса надежности психологических диагностических методик. Исследователь может разрабатывать тесты для решения своих частных задач, например задач теоретического порядка, не связанных с ди­агностическими и прогностическими целями. Установление валидности подобных тестов не может считаться обязательным делом. Однако если результаты тестиро­вания могут хотя бы в малейшей степени повлиять на судьбу людей, проходивших испытания, необходимо знать, насколько тест пригоден для того, чтобы выпол­нить свое назначение, и насколько высока вероятность того, что результаты тести­рования отражают такие стойкие индивидуально-психологические особенности людей, которые реализуются в их учебной и производственной деятельности и так или иначе влияют на ее успешность и эффективность.

Психолог, работающий в области психологической диагностики, должен знать, каков сложившийся в настоящее время аппарат установления валидности, какие трудности и неясности возникают при его использовании. Но это особый вопрос, хотя и тесно соприкасающийся с вопросом о надежности, он требует специального рассмотрения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: