Стандартизация тестов

Лекция 3. Основные требования к психодиагностическим измерениям.

План:

Понятие стандартизации, валидности инструментов измерения

Понятие надежности и критериальности инструментов измерения

Для оценки качества диагностческих процедур используется ряд показателей: валидность, надежность, достоверность, репрезентативность.

Надежность теста

Надежность — одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста).

Надежность — это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов.

Надежность теста показывает независимость его результатов от действия разных случайных факторов.

Существуют три основных метода оценки надежности:

§ повторное тестирование (ретестовая надежность или надежность-устойчивость);

§ параллельное тестирование (эквивалентная надежность);

§ расщепление (согласованность, одномоментная надежность).

Для проверки стабильности изучаемого признака используется метод перетестирования (тест-ретест) или метод измерения «РЕТЕСТОВОЙ НАДЕЖНОСТИ». На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании проводят первое тестирование X, а затем повторное тестирование Y. Интервал, как правило, — две недели, что гарантирует забывание вопросов теста. Затем для двух рядов значений Х и Y подсчитывается коэффициент корреляции.

Валидность теста

Соответствие теста измеряемому психическому свойству называется ВАЛИДНОСТЬЮ теста. По определению американского тестолога А. Анастази, «валидность теста – понятие, указывающее нам, что тест измеряет и насколько он хорошо это делает». Если высокая надежность теста говорит нам о том, что тест действительно «что-то» измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Валидность свидетельствует о том, пригодна ли методика для измерения определенных качеств, особенностей и насколько эффективно она это делает. На валидность теста негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ < НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежность теста.

На валидность теста влияют систематические факторы (другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен).

В современной психодиагностике разработаны десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов и каждый из них соответствует разным аспектам этого значения. Соответственно и понятие валидности представлено разными типами: валидность внешняя и внутренняя, конструктная, конвергентная и дискриминантная, практическая (прагматическая) и прогностическая, инкрементная и дифференциальная.

Классификационная схема типологии валидности (по Ю. З. Гильбуху).

Валидность по назначению	Валидность по характеру получения психологической информации
непосредственная (очевидная)	производная (вторичная)
сугубо-эмпирическая	теоретико-эмпирическая
Содержательно-познавательная	1.Внешняя (очевидная)	1.Прогностическая	1.Оценочная
Практическая	2.Внутренняя (имманентная)	2.Совпадающая	2.Конструктная
3.По объему

Основным элементом практически всех психометрических методов является так называемый «критерий валидности».

КРИТЕРИЙ ВАЛИДНОСТИ — это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной информации об измеряемом свойстве — с критерием.

На практике очень часто в качестве критерия валидности используются прагматические критерии — показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование.

1. Прагматическая валидность – проверка методики с точки зрения ее практической значимости, эффективности, полезности. Для проведения такой проверки, используются независимые внешние критерии (прагматические критерии), т. е. используется независимый от теста, внешний источник информации о проявлении в реальной жизни и деятельности людей измеряемого психического свойства.

Для проверки такой валидности теста можно использовать метод «известных групп».

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности. Это один из самых простых и популярных методов эмпирического (статистического) измерения валидности.

Метод «известных групп» обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза.

2. Прогностическая валидность (предсказывающая) отличается тем, что информация по внешнему критерию собирается некоторое время спустя после проведения обследования. Такая валидность свидетельствует о возможностях методики предсказывать успешность испытуемого в каких либо видах деятельности.

3. Валидность «по одновременности», или текущая валидность. Определяется с помощью внешнего критерия, информация по которому собирается в период проведения испытаний (успеваемость, производительность труда).

4. Внутренняя (имманентная) валидность теста определяется на основе применения «внутренних» критериев – признаков, указанных в определении психического свойства, лежащего в основе теста.

5. Конструктная валидность. Основу конструктной валидности составляет понятие о научном (в данном случае психологическом) конструкте. Конструкты – это объекты современных научных теорий, которые создаются в рамках определенной концептуальной системы. Конструктная валидность считается установленной, если экспериментально доказано, что признанный в науке концептуальный конструкт теоретически объясняет те индивидуальные различия, которые обнаруживает тест.

6. Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. Данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

7. Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

8. Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

9. Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.

10. Ретроспективная валидность определяется на основе критерия, отражающего событие или состояние качества в прошлом. Она также может свидетельствовать о предсказательных возможностях методики.

Стандартизация тестов

Каждый грамотный пользователь теста должен понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии «сырым тестовым баллом». Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

Стандартизированность психодиагностической методики предполагает, с одной стороны, единую стандартную процедуру ее проведения и обработки результатов, с другой, - включает перевод «сырых первоначальных результатов теста» в стандартную шкалу тестовых баллов, в результате чего можно сопоставлять результаты у разных испытуемых в разных тестах.

Выборка, на которой определяются статистические тестовые нормы, называется ВЫБОРКОЙ СТАНДАРТИЗАЦИИ. Ее численность, как правило, не меньше 200 человек. Столько должны принять участие в психометрическом эксперименте по определению тестовых норм — в эксперименте по стандартизации теста.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу «верхней» (или «высокой») группы M+Д, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Если же стандартный балл У ниже границы «нижней» («низкой») группы M-Д, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Д, M+Д), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени — как у большинства

людей.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм.

Под популяцией обычно понимают категорию испытуемых определенной социальной, профессиональной или половозрастной принадлежности.

Репрезентативность — третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИЮ, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста.

Подборка статей по вашей теме: