double arrow

Стандартизация тестов

Лекция 3. Основные требования к психодиагностическим измерениям.

План:

Понятие стандартизации, валидности инструментов измерения

Понятие надежности и критериальности инструментов измерения

 

Для оценки качества диагностческих процедур используется ряд показателей: валидность, надежность, достоверность, репрезентативность.

Надежность теста

Надежность — одно из трех главных психо­метрических свойств любой измерительной психоди­агностической методики (теста).

Надежность — это помехоустойчивость теста, независимость его резуль­татов от действия всевозможных случайных факто­ров.

Надежность теста показывает независимость его результатов от действия разных случайных факторов.

Существуют три основных метода оценки надежности:

§ повторное тестирование (ретестовая надежность или надежность-устойчивость);

§ параллельное тестирование (эквивалентная надежность);

§ расщепление (согласованность, одномоментная надежность).

Для проверки стабильности изучаемого признака используется метод перетестирования (тест-ретест) или метод измерения «РЕТЕСТОВОЙ НАДЕЖНОСТИ». На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании проводят первое тестирование X, а затем повторное тестирование Y. Интервал, как правило, — две недели, что гарантирует забывание вопросов теста. Затем для двух рядов значений Х и Y подсчитывается коэффициент корреляции.

Валидность теста

Соответствие теста измеряемому психическому свойству называется ВАЛИДНОСТЬЮ теста. По определению американского тестолога А. Анастази, «валидность теста – понятие, указывающее нам, что тест измеряет и насколько он хорошо это делает». Если высокая надежность теста говорит нам о том, что тест действительно «что-то» измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Валидность свидетельствует о том, пригодна ли методика для измерения определенных качеств, особенностей и насколько эффективно она это делает. На валидность теста негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ < НАДЕЖНОСТЬ,

что означает, что валидность не может превы­шать надежность теста.

На валидность теста влияют систематиче­ские факторы (другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен).

В современной психодиагностике разработаны десятки разнообразных теоретических и экс­периментальных методов проверки валидности тес­тов и каждый из них соответствует разным аспектам этого значения. Соответственно и понятие валидности представлено разными типами: валидность внешняя и внутренняя, конструктная, конвергентная и дискриминантная, практическая (прагматическая) и прогностическая, инкрементная и дифференциальная.

Классификационная схема типологии валидности (по Ю. З. Гильбуху).

 

Валидность по назначению Валидность по характеру получения психологической информации
непосредственная (очевидная) производная (вторичная)
сугубо-эмпирическая теоретико-эмпирическая
Содержательно-познавательная 1.Внешняя (очевидная) 1.Прогностическая 1.Оценочная
Практическая 2.Внутренняя (имманентная) 2.Совпадающая 2.Конструктная
3.По объему

 

Основным элементом практически всех психометрических методов является так называемый «критерий валидности».

КРИ­ТЕРИЙ ВАЛИДНОСТИ — это независимый от теста, внешний по отношению к тесту источник информа­ции об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной информации об измеряемом свойстве — с критерием.

На практике очень часто в качестве критерия ва­лидности используются прагматические критерии — показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестиро­вание.

1. Прагматическая валидность – проверка методики с точки зрения ее практической значимости, эффективности, полезности. Для проведения такой проверки, используются независимые внешние критерии (прагматические критерии), т. е. используется независимый от теста, внешний источник информации о проявлении в реальной жизни и деятельности людей измеряемого психического свойства.

Для проверки такой валидности теста можно использовать метод «известных групп».

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности. Это один из самых простых и популярных методов эмпирического (статистического) измерения валидности.

Метод «известных групп» обладает серьез­ным недостатком. Он не всегда позволяет использо­вать тест для прогноза.

2. Прогностическая валидность (предсказывающая) отличается тем, что информация по внешнему критерию собирается некоторое время спустя после проведения обследования. Такая валидность свидетельствует о возможностях методики предсказывать успешность испытуемого в каких либо видах деятельности.

3. Валидность «по одновременности», или текущая валидность. Определяется с помощью внешнего критерия, информация по которому собирается в период проведения испытаний (успеваемость, производительность труда).

4. Внутренняя (имманентная) валидность теста определяется на основе применения «внутренних» критериев – признаков, указанных в определении психического свойства, лежащего в основе теста.

5. Конструктная валидность. Основу конструктной валидности составляет понятие о научном (в данном случае психологическом) конструкте. Конструкты – это объекты современных научных теорий, которые создаются в рамках определенной концептуальной системы. Конструктная валидность считается установленной, если экспериментально доказано, что признанный в науке концептуальный конструкт теоретически объясняет те индивидуальные различия, которые обнаруживает тест.

6. Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установ­лена. Данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В са­мом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

7. Инкрементная валидность имеет ограниченное значение и относится к слу­чаю, когда один тест из батареи тестов может иметь низкую корреляцию с крите­рием, но не перекрываться другими тестами из этой батареи. В этом случае дан­ный тест обладает инкрементной валидностью. Это может быть полезно при про­ведении профотбора с помощью психологических тестов.

8. Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успева­емостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

9. Содержательная валидность определяется через подтверждение того, что за­дания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбирают­ся эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, гене­рируются задания теста, которые вновь оценивают эксперты.

10. Ретроспективная валидность определяется на основе критерия, отражающего событие или состояние качества в прошлом. Она также может свидетельствовать о предсказательных возможностях методики.

Стандартизация тестов

Каждый грамотный пользователь теста должен пони­мать, что такое тестовые нормы и как ими пользо­ваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, кото­рый можно диагностически интерпретировать. Его называют в тестологии «сырым тестовым баллом». Применение тестовых норм в профессионально орга­низованной психодиагностике основывается на пере­воде тестовых баллов из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

Стандартизированность психодиагностической методики предполагает, с одной стороны, единую стандартную процедуру ее проведения и обработки результатов, с другой, - включает перевод «сырых первоначальных результатов теста» в стандартную шкалу тестовых баллов, в результате чего можно сопоставлять результаты у разных испытуемых в разных тестах.

Выборка, на которой определяются статистиче­ские тестовые нормы, называется ВЫБОРКОЙ СТАН­ДАРТИЗАЦИИ. Ее численность, как правило, не меньше 200 человек. Столько должны принять учас­тие в психометрическом эксперименте по определе­нию тестовых норм — в эксперименте по стандарти­зации теста.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу «верхней» (или «высокой») груп­пы M+Д, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Если же стандартный балл У ниже границы «нижней» («низкой») группы M-Д, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Д, M+Д), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени — как у большинства

людей.

Любые тестовые заключения при использовании статистических тестовых норм являются относитель­ными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм.

Под популяцией обычно понимают категорию испытуе­мых определенной социальной, профессиональной или половозрастной принадлежности.

Репрезентатив­ность — третье важнейшее психометрическое свой­ство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школь­никах следует вначале произвести РЕСТАНДАРТИЗАЦИЮ, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностичес­кие выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: