Однократное тестирование (метод расщепления)

Этот метод удобен в практическом применении, так как ограничивается однократным тестированием (диагностикой). Они применяется чаще всего по отношению к тестам и опросникам. Метод расщепления основан на допущении параллельности двух половин методики и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (Y). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста. Поэтому метод расщепления теста называют методом оценки внутренней согласованности и используют для определения гомогенности теста.

Коэффициент надежности вычисляется по формуле:

K=  xi yi  ^ x _Ni  y i _,

2 2

2   xi  yi 2    yi 

 xi  _N  _N

где результат первого тестирования – это результаты по нечетным заданиям, а второго – по четным заданиям.

Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена–Брауна:

2 (rн) расщ

^r_н=

1 +(rн)расщ

В практике педагогических измерений часто используется способ оценки надежности с применением формулы Кьюдера– Ричардсона. Она может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл – правильно; 0 баллов – неправильно). Также оценка надежности при однократном проведении теста может быть подсчитана на основе коэффициента альфа.

Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериальноориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно, и корреляционная оценка надежности будет низкой.

Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, соответствующие одному и тому же содержанию.

Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один, при этом вопросы перемежаются: (1 вариант 1 вопрос, 2 вариант 1 вопрос, 1 вариант 2 вопрос, 2 вариант 2 вопрос и т. д.). По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста. По результатам теста составляется таблица сопряжения^{^[82]}.

Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью фикоэффициента корреляции.

= ad  bc

(a+c)(b+d)(a+b)(c+d)

Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле

k = (P – Pc)/(1 – Pc),

где P = A + D – доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc – вероятность случайного принятия согласованного решения.

Pc вычисляется по формуле

Pc = (c + d)(d + b) + (a + b)(c + a)

Каппа-коэффициент может принимать значения от –1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять фи– и каппакоэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.

Способы повышения надежности теста ^{^[83]}

1. Увеличение количества заданий теста. Согласно классической теории тестов наблюдаемый балл состоит из истинного балла и ошибочной компоненты. Теоретически, чтобы уменьшить ошибку, надо дать как можно больше заданий. Существуют специальные методики определения оптимальной длины теста для достижения необходимой надежности. Но на практике не всегда возможно и целесообразно удлинение теста.

2. Анализ тестовых заданий с точки зрения соответствия формы и содержания тестовой теории. Удаление неудачных заданий.

3. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа.

Валидность (от англ. Validity – значимость, обоснованность, пригодность) – это характеристика способности теста служить поставленной цели измерения, т. е. способность теста измерять то, для чего он предназначен. Определение валидности теста дает ответы на два вопроса: 1) какие выводы можно сделать о том, что измерялось тестом; 2) насколько реальное поведение человека отличается от его поведения при тестировании.

Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (Анастази А.; Майоров А. Н.): содержательную, критериальную и конструктную (концептуальную) валидность.

1) Содержательная валидность (content validity) – соответствие теста как измерительного инструмента той области содержания, знания и умения которую проверяют данным тестом. Содержательная валидность особенно важна для тестов умений и знаний, личностных и поведенческих опросников и средств измерения способностей.

В зависимости от выбранного подхода при создании теста предъявляются различные требования к содержательной валидности. Для критериально-ориентированных тестов одно из требований содержательной валидности – полнота отображения, а в некоторых случаях – детализация проверяемой области содержания. При нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самое важное, свидетельствующее о знании дисциплины.

Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Чтобы выразить содержательную валидность, исследователь должен определить цели тестирования, то какое поведение испытуемых будет подвергаться тестированию и что будет являться репрезентативным отражением этого поведения в тесте.

Для педагогических тестов содержательная валидность оценивается экспертным путем.

2) Критериальная (внешняя) валидность – это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).

Критериальную валидность определяют как корреляцию результатов тестирования с некоторым внешним критерием. Критерии должны быть проверены на степень адекватности, надежности и загрязненности (контаминантности). Критерий должен отражать значимые аспекты деятельности.

В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность в зависимости от выбранного критерия может быть текущей (внешний критерий – текущие оценки) или прогностической (критерий – некоторый будущий результат).

Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя(ей) при традиционной проверке знаний без использования тестов. Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

60 61 62 63 64 65 66

Соотношение законности и правопорядка

Раннее средневековье. Апологетика. Патристика. Схоластика

Технология приготовления заправочных супов

Язык как общественное явление

Социальная поддержка и социальное обслуживание население

Желе, муссы, самбуки. Технология приготовления. Правила подачи. Ассортимент

Самый сильный аргумент, почему эволюция человека не могла быть