Тема 4. Требования к психодиагностическим методикам

1. Понятие надежности.

2. Валидность и её виды.

3. Тестовые нормы и репрезентативность выборки.

Измерительные методы должны удовлетворять следующим требованиям:

А) должны быть однозначно сформулированы цель, предмет и область применения методики, а также цели использования результатов (производство, семья, образование, самопознание и т.д.) и контингент испытуемых.

Б) процедура проведения должна быть задана в виде однозначного алгоритма.

В) процедура обработки должна включать статистически обоснованные методы подсчета и стандартизации баллов с указанием уровня достоверности.

Г) тестовые шкалы должны быть проверены на репрезентативность, надежность и валидность.

Д) самоотчеты должны включать шкалы лжи.

Надежность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних и случайных факторов. Проще говоря, надежность – это устойчивость результатов теста при повторном измерении у тех же испытуемых.

Распределение оценок испытуемых при выполнении теста в идеальном случае совпадает с нормальным распределением, и дисперсия при этом будет истинной, т.е. отражающей изменение только измеряемого признака, а не случайных факторов. Каждый испытуемый занимает определенное место на кривой распределения по оценкам теста, и теоретически это место для каждого члена выборки постоянно. Тогда методика точна и надежна. Но реально повторные результаты не всегда совпадают. Разница в данных называется ошибкой измерения. Чем величина ошибки измерения меньше, тем надежность выше.

Степень надежности методик зависит от многих причин:

1) нестабильность диагностируемого свойства;

2) несовершенство методики (небрежно составлена инструкция, разнородны задания и т.д.);

3) изменение ситуации обследования;

4) различия в манере поведения экспериментатора в разных опытах;

5) разное состояние испытуемого в одном и другом случае;

6) субъективность в оценивании ответов и результатов;

7) выборка испытуемых. Она может искусственно завышать надежность в двух случаях: а) если результаты каждого близки друг другу; б) если испытуемые по результатам тестирования делятся на две группы – с высокими и низкими показателями. Тогда эти результаты не совпадают и не перекрываются.

Надежность повышается в случае стандартизации процедуры проведения тестирования.

Надежность устанавливается путем корреляции между результатами двух измерений. Выбор формулы корреляции зависит от того, какой тип надежности измеряется.

1. Ретестовая надежность – это измерение стабильности изучаемого признакак. Проводится два измерения на одной и той же группе с некоторым промежутком во времени. Результаты обрабатываются с помощью корреляционного анализа по Пирсону. Хороший коэффициент корреляции – 0,7-0,8.

2. Надежность измерительного инструмента. Содержание теста делят на четные и нечетные вопросы, обрабатывают их результаты отдельно и применяют корреляционный анализ по Спирмену. Также измеряют надежность шкал в личностных опросниках.

3. Определение константности – относительной независимости результатов от личности экспериментатора. Для этого проводят ту же методику с другим экспериментатором и также считают корреляцию результатов. Влияние личности есть, если нет однородности результатов. Здесь также применяют корреляцию по Спирмену.

4. Надежность взаимозаменяемых форм. Одни и те же испытуемые первый раз тестируются одной методикой, второй раз – другой. Корреляции между показателями, полученными по двум формам теста, - и есть коэффициент надежности. Данный вид применяют, когда необходимо выбрать из двух методик, измеряемых одно и то же, более удобную и компактную. Если между ними достаточный коэффициент корреляции, - методики взаимозаменяемы.

Также необходимо помнить, что на надежность влияют индивидуальные особенности испытуемых. Например, для работы с лингвистическим тестом нельзя собирать филологов и математиков, филологов и малограмотных или читающих – нечитающих. И, наконец, надо учитывать, что коэффициент надежности, приводимый в тесте, соответствует той выборке, на которой он разрабатывался и апробировался, поэтому ваша выборка должна быть аналогичной. В противном случае, результаты могут оказаться ненадежными.

После надежности определяется валидность.

Валидность – понятие, указывающее, что тест измеряет и насколько хорошо он это делает. Валидность предоставляет сведения о том, относительно какой группы психологических свойств могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов.

Выделяют несколько этапов в разработке понятия валидности.

1. На первых этапах тестологии валидность никак не проверялась. Методика признавалась валидной в трех случаях: 1) если то, что она измеряет, «очевидно»; 2) если исследователь уверен, что его метод позволяет понять испытуемого; 3) если методика строилась на основе хорошей теории.

2. Возникло понятие содержательной валидности, т.е. выяснение того, что конкретно измеряет тест. Применялось в тестах достижений. Определялось, измеряет ли методика, скажем, умение считать в математическом тесте или умение решать определенный класс задач.

3. Возникла прогностическая валидность, т.е. исследователей стало интересовать, как люди будут вести себя через определенное время. Деятельность, для которой хотели предсказать поведение, стала критерием, с которым сравнивали результаты теста. Например, если у человека есть какие-то качества, он будет успешен в деятельности.

4. Попытались перейти на более научные основы. Содержательная валидность стала определяться путем соотнесения новой методики с уже имеющейся через корреляционный анализ. Если выяснялось, что новая методика измеряет то же самое, но компактнее первой, то начинала применяться она. Кроме того, устанавливалось отсутствие связи с теми методиками, которые измеряют нечто другое. Это тоже являлось показателем валидности. Связь между методиками называется конвергентной валидностью, различия – дискриминантной. Но если это новая методика, такую валидизацию осуществить нельзя. Тогда с ней просто работают, полагаясь на надежность, и все время анализируют полученные данные, соотнося их с теоретическими положениями об изучаемом свойстве. Если же содержательная валидность доказана, то интерпретация полученных показателей становится более ясной, а название методики начинает соответствовать сфере её применения.

5. Сейчас все больше говорят о конструктной валидности, т.е. соотнесении методики с какой-то теоретической категорией, отражающейся в поведении. Сама эта категория ненаблюдаема, это теоретическое образование, но её проявление можно найти в поведении. Такая категория и называется конструктом. Если есть конструкт, есть определенное поведение; если есть поведение, его можно проверить методикой, содержащей соответствующий конструкт. Примером такого конструкта является общительность.

Оценка практической значимости методики называется прагматической валидностью. Для неё используется внешний критерий, который является показателем проявления изучаемого свойства в повседневной жизни.

Выделяют 4 типа таких критериев:

1) критерии исполнения – количество выполненной работы, успеваемость, время обучения, рост квалификации;

2) субъективные критерии – отношение человека к чему-то или кому-то, мнения, взгляды, предпочтения. Эти критерии получают с помощью анкет, интервью;

3) физиологические критерии – частота пульса, сердечных сокращений, давление. Используются при изучении влияния окружающей среды на человека;

4) критерии случайностей – для отбора стрессоустойчивых людей, менее подверженных несчастным случаям.

Любой критерий должен соотноситься с содержанием методики, с особенностями измеряемого свойства и быть свободным от помех, условий выполнения деятельности. Например, измеряем концентрацию внимания, соотносим с количеством выполненной работы, но должны учитывать проявления концентрации, содержание заданий и отсутствие интереса или отвлекающих факторов, которые могут повлиять на результаты.

Найти нужный критерий – очень сложная задача. Если его найти не удается, методики часто дисквалифицируются.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя – коэффициента валидности – результаты методики сопоставляются с данными по внешнему критерию с помощью корреляционного анализа по Спирмену или Пирсону. Коэффициент корреляции 0,2-0,3 – низкий, 0,3-0,5 – средний, выше 0,6 – высокий, выше 0,85-сомнительный. Выборка должна быть не меньше 50 человек, а лучше – больше 200. Но эти коэффициенты можно использовать, когда доказано, что успех в какой-то деятельности напрямую зависит от измеряемого свойства, т.е. имеет место линейная зависимость.

Качественная оценка – это описание сущности изучаемого свойства без применения статистики. Она позволяет учесть индивидуальные особенности.

В настоящее время существует много видов валидности, и их количество постоянно растет. Наиболее разработаны следующие.

1. Валидность по содержанию - используется в тестах достижений. Поскольку в них включается только часть материала, которым владеет человек, то успешность работы человека с тестом сопоставляется с мнением экспертов о его успешности в этой деятельности вообще.

2. Валидность по одновременности (текущая валидность) – одновременно с работой с каким-то человеком, собираются сведения о том, насколько он в данный момент успешен или насколько ему присущи какие-то качества.

3. Прогностическая валидность – информация собирается через некоторое время после тестирования. Внешним критерием здесь будет выраженная в каких-то оценках способность человека к тому виду деятельности, для которого он отбирался по тестам. При этом точность прогноза находится в обратной зависимости от времени, через которое его оценивают, т.к. подключается много дополнительных факторов, которые нельзя учесть.

4. Ретроспективная валидность – результаты по тесту сравниваются с прошлыми достижениями человека, в том числе с прошлым тестированием. Таким образом определяются предсказательные возможности методики. Сравнивают прошлые экспертные оценки, смотрят, как человек выполнил методику и оценивают, можно ли было предсказать еще тогда, с помощью методики, его успехи или неуспехи в будущем.

5. Конструктная валидность – для её определения результаты тесты соотносятся а) с возрастными изменениями; б) с факторами (факторный анализ); в) с другими методиками. Возрастные изменения, факторы – это теоретические обобщения, которые проявляются в поведении. Например, если есть особенности поведения, есть какая-то возрастная особенность.

Кроме того, показателем конструктной валидности является определение внутренней согласованности. Она определяется методом контрастных групп. Берут две группы испытуемых – с самыми высокими и самыми низкими показателями по тесту. Затем их ответы по каждому заданию сравниваются между собой. Те задания, по которым у них не оказалось различий, выбрасываются или перерабатываются.

В целом валидность ≤ надежности.

В тесте обычно указывается, какой вид валидности применяется. Это дает возможность оценить предсказательные возможности теста. Сейчас еще добавляют экологическую валидность, т.е. учет условий тестирования. Но тогда должны быть перечислены все эти условия.

Коэффициент валидности выражает величину корреляции между показателем теста и мерой критерия. На величину коэффициента валидности влияют:

- характер группы, т.е. на ком проводят методику. Например, люди с разным уровнем образования могут по-разному решать одни и те же задачи, следовательно, получится разный коэффициент валидности;

- неоднородность выборки – чем она больше, тем больше будет коэффициент корреляции, а значит, и коэффициент валидности;

- предотбор, т.е. на ком первый раз использовался тест. Например, нанимают работников на работу и используют какой-то тест. Предполагается, что потом его результаты сравнят с успешностью их деятельности. Но если набирали не всех подряд, в случайном порядке (а именно так и бывает, ведь на работу берут специалистов, а не всех подряд), то результаты будут только высокие, распределение не нормальным, и коэффициент недостоверным;

- форма связи между тестом и критерием. Как уже говорилось, она должна быть линейной, только тогда можно применять коэффициент корреляции. Например, между способностями и академическим достижениями не всегда есть линейная связь, поскольку сами по себе способности достижений не определяют, должна быть еще соответствующая мотивация, интересы и т.д. Для определения формы связи можно применять математические методы, а можно – теоретические рассуждения.

Тестовые нормы – это критические точки на шкале тестовых баллов, которые отделяют область этой шкалы с заданным диагностическим свойством. Свойство находится между этими точками. Ниже нижней точки свойство не выражено, выше верхней – принимает патологические формы.

Тестовые нормы бывают:

а) абсолютные – в тестах достижений, когда есть процент правильно решенных заданий (ШТУР). Их применение корректно, если набор заданий служит нормативом. Абсолютная тестовая норма делит людей на две группы – с высоким и низким уровнем обученности. Но часто бывает неопределенный результат – средняя группа. С ней надо проводить обучение и повторное тестирование, чтобы все-таки куда-то отнести.

б) статистические – результат испытуемого соотносится с результатами других испытуемых, включенных в выборку. Если тест это делает, говорят, что он обладает дискриминативностью – способностью различать испытуемых. Достигается это за счет перевода «сырых» баллов в стены.

в) критериальные – выбирается критерий, с которым соотносятся результаты теста. Например, профессиональные качества соотносятся с успешностью деятельности. Качества измеряются, успешность – критерий. Между ними считается корреляция. Критериальные нормы могут быть гендерные, возрастные, образовательные, нормальное развитие – умственная отсталость и т.д.

Тестовые нормы относительны. Играет роль, с кем сравнивают человека, какие тесты дают, какова выборка, с которой мы сравниваем человека. Если она более слабая, чем он, будут одни результаты, если более сильная, – другие. Для выработки тестовых норм важно, чтобы содержание тестов было одинаковым, единицы измерения шкал были сопоставимы. В противном случае возможны ошибки в оценке человека.

Составляют таблицы эквивалентности показателей разных тестов. Для этого проводят исследование на выборке по разным тестам и составляют таблицы равных процентилей, которые и являются таблицей эквивалентности. Например, если 80-й процентиль по одному тесту равен 100 баллам, а по второму – 110, то считается, что данные эквивалентны. Но обычно в тесте указывается, для кого конкретно разработаны нормы.

Выборка, на которой проводится исследование, должна быть репрезентативна, т.е. её количество должно быть необходимым и достаточным для того, чтобы данные по методике были надежны и валидны. Для определения репрезентативности подсчитывается минимальное количество выборки для установления изучаемого показателя.

И, наконец, методика должна быть стандартизирована. Стандартизация – это унификация, приведение к единым нормам процедуры и оценок теста. Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых.

Различают две формы стандартизации.

1. Стандартизация процедуры проведения, регистрации результатов и обработки данных.

2. Преобразование полученной шкалы оценок в новую шкалу, основанную на относительном месте показателя в распределении результатов (перевод «сырых» баллов в стены).

Таким образом, чтобы оценить методику, мы должны убедиться, что все перечисленные параметры указаны в описании методики, она является надежным инструментом диагностики и психологической оценки личности. Если этого нет, результаты методики могут оказаться ненадежными, если не ошибочными.