Выборка стандартизированного педагогического теста

Разработка тестов как измерительных инструментов связана с требованиями к расчету показателей качества тестов и требования к их оснащению. Такими показателями качества являются прежде всего выборка, надежность и валидность тестового инструментария.

Для успешного расчета необходимой выборки стандартизации дидактического теста используется ряд понятий, достаточно тесно взаимосвязанных.

Генеральная совокупность - множество элементов, объединенных общей характеристикой, указывающих на их принадлежность к единой системе и изучаемых в рамках какого-либо обследования и определенных территориально-временных границах.

Генеральная совокупность применительно к педагогической сфере представляет собой именно ту совокупность (школ, учащихся, районов, городов и т.д.), на которую исследователь (диагност) хочет распространить выводы проведенного им педагогического исследования (тестирования).

Выборочная совокупность - часть генеральной совокупности, объекты которой являются основными объектами обследования. Она отбирается с помощью специальных методик и правил таким образом, чтобы ее характеристики отражали основные свойства генеральной совокупности.

Основа выборки - система взаимосвязанных элементов генеральной совокупности, удовлетворяющих требованиям полноты, точности, адекватности.

Выборка должна удовлетворять следующим требованиям:

а) полноты - в составе генеральной совокупности должны находиться все ее элементы, иначе выборка будет смещена;

б) точности - информация по каждой единице наблюдения должна быть реальной. Если, например, основой выборки служат списки учащихся, то они должны быть уточнены, чтобы в них не попали выбывшие учащиеся;

в) отсутствия дублирования - каждая единица наблюдения не должна повторяться, т.е. попадать в список дважды;

г) адекватности - основа выборки должна соответствовать целям и задачам обследования. По существу проблема адекватности основы выборки - это проблема правильного определения (конструирования) генеральной совокупности;

д) удобства работы - единицы наблюдения, входящие в генеральную совокупность, необходимо пронумеровать, а фамилии и инициалы четко вписать в общий список.

Объем выборки зависит от числа признаков, относительно которых она производится, и должен быть велик настолько, чтобы в каждую выделенную группировку попало достаточное количество элементов.

Вопрос 2. Надежность теста и проблема угадывания правильного ответа. Разные способы оценки надежности. Ретестовая надежность.

Достаточно надежный тест позволяет получить устойчивую оценку способностей испытуемых той группы, к которой он применяется.

Надежность теста как средства измерений определяется отсутствием ошибок измерения тестовых баллов и тем, в какой мере результаты измерений воспроизводятся при многократном использовании теста по отношению к данной группе испытуемых. Ошибки измерения возникают в связи с усталостью испытуемого, нервным напряжением, содержанием включенных в тест заданий, ошибочными ответами, неправильной интерпретацией инструкций и попытками угадать ответ. Эти ошибки снижают индивидуальные результаты испытуемого и надежность теста.

А. Анастази выделяет случайные ошибки, вызванные невнимательностью или незнанием учащегося, и истинные ошибки, то есть ошибки, допущенные в конструкции теста. С этой точки зрения надежность показывает, в какой степени индивидуальные различия вызваны истинными, а какие случайными ошибками.

Чтобы оценить вклад различных источников в ошибку измерения, необходимо использовать разные способы оценки надежности. Прежде всего это ретестовая надежность. Для этого тест используют второй раз, и коэффициент надежности в этом случае равен корреляции между результатами, полученными на одних итех же испытуемых в каждом из случаев проведения теста. Чем выше ретестовая надежность, тем менее чувствительны результаты к обычным изменениям состояния испытуемого и обстановке тестирования.

Ретестовая надежность зависит от интервала времени, в котором она происходит. С увеличением времени данный вид надежности уменьшается. С другой стороны, если промежуток времени невелик, то испытуемые припоминают свои прежние ответы. В этом случае обследуемые указывают примерно одинаковые правильные и неправильные ответы и коэффициент корреляции окажется обманчиво высоким.

Другой способ определения надежности - метод расщепления. В этом случае каждый испытуемый получает два результата при разбивке теста на две сопоставимые части. При такой методике надежность является мерой согласованности выборок содержания. Временная стабильность показателей в ней не представлена, так как применяется только один сеанс тестирования. Благодаря этому метод расщепления иногда называют коэффициентом внутренней согласованности.

Еще одним способом определения надежности является надежность взаимозаменяющих форм. При этом те же самые испытуемые первый раз тестируются с помощью одной формы теста, второй раз - с помощью другой, сравнимой формы. Корреляция между показателями, полученными по этим двум формам, и служит коэффициентом надежности теста. При этом измеряется как временная стабильность теста, так и согласованность ответов по двум выборкам заданий.

Один из доводов критиков тестирования заключается в том, что для большинства заданий существует вероятность случайного угадывания правильных ответов. В общем случае это проблема только заданий закрытого типа, и чем меньше возможных альтернатив предлагается испытуемому в рамках одного задания, тем больше вероятность угадывания. Однако для заданий альтернативных ответов, используемых одиночно, вероятность угадывания максимальна и составляет 50%. Исследователи настоятельно не рекомендуют использовать такие задания для тестов школьных достижений. Серия из пяти заданий альтернативных ответов дает вероятность угадывания 0,0313, а из десяти заданий - всего лишь 0,00098.

Проблема угадывания зависит и от времени, выделяемого на тестирование, и в меньшей степени, от мотивации. Чем выше мотивация, тем больше вероятность того, что испытуемый попытается дать ответ случайно на те вопросы, на которые он не успевает ответить, то есть попытается угадать. В свою очередь, количество вопросов, по которым возможно будет угадывание, зависит от времени, выделяемого на тестирование. Чем оно короче, тем больше будет вопросов, на которые распространится случайное угадывание. Таким образом, для времени, выделяемого на тестирование, должен быть найден баланс: недостаток его ведет к угадыванию, избыток - к подсказкам и ослаблению дисциплины.

Вопрос 3. Факторы, оказывающие влияние на надежность тестового инструментария.