Метрологические требования к тестам

Классификация тестов

Понятие «тест», требования к тестам

Термин тест в переводе с английского языка означает проба, испытание. Тесты применяются для решения многих научных и практических задач. Среди других способов оценки физического состояния человека (наблюдение, экспертные оценки) метод тестов (в нашем случае — двигательных или моторных) является главным методом, используемым в спортивной метрологии и других научных дисциплинах («учении о движениях», теории и методике физического воспитания).

Тест — это измерение или испытание, проводимое для определения способностей или состояния человека. Таких измерений может быть очень много в том числе на основе использования самых разнообразных физических упражнений. Однако далеко не каждое физическое упражнение или испытание можно рассматривать как тест. В качестве тестов могут использоваться лишь те испытания (пробы), которые отвечают специальным требованиям:

· должна быть определена цель применения любого теста (или тестов);

· следует разработать стандартизированную методику измерения результатов в тестах и процедуру тестирования;

· необходимо определить надежность и информативность тестов;

· результаты тестов могут быть представлены в соответствующей системе оценки.

· необходимо указать вид контроля (оперативный, текущий или этапный).

Система использования тестов в соответствии с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называется тестированием. Полученное в ходе измерений числовое значение — результатом тестирования (теста). Например, прыжок в длину с места — это тест; процедура проведения прыжков и измерение результатов — тестирование; длина прыжка — результат теста.

В настоящее время не существует единой классификации тестов. В зависимости от области применения существую тесты: педагогические, психологические, специальных способностей и т.д. По методологии интерпретации результатов тестирования тесты классифицируются на нормативно-ориентированные и критериально-ориентированные.

Нормативно-ориентированный тестпозволяет сравнивать достижения (уровень подготовки) отдельных испытуемых друг с другом. Такие тесты используются для того, чтобы получить надежные и нормально распределенные баллы для сравнения тестируемых. Такие тесты служат базой для разработки систем оценок.

Критериально-ориентированный тестпозволяет оценивать в какой степени испытуемые овладели необходимым заданием (техникой движении, двигательным качеством и т.д.).

В основе тестов, используемых в физическом воспитании, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными или моторными.

Существуют следующие разновидности двигательных тестов:

· показатели, измеряемые в покое;

· контрольные упражнения;

· стандартные функциональныепробы;

· максимальные функциональныепробы.

Различают также единичный и комплексный тесты.

Единичный тестслужит для измерения и оценки одного признака (координационной или кондиционной способности).

К единичным относятся: элементарный, учебный тесты и тестовая серия.

Поскольку структура каждой координационной или кондиционной способности является сложной, то с помощью элементарного теста оценивается, как правило, только один компонент этой способности (например, способность к равновесию, быстрота простой реакции и т.д.).

С помощью учебного теста оценивается способность к двигательному обучению (по разности окончательной и начальной оценок за определенный период обучения технике движений).

Тестовая серия дает возможность один и тот же тестиспользовать в течение длительного времени, когда измеряемая способность существенно улучшается. При этом задачи теста по своей трудности последовательно повышаются. К сожалению, эта разновидность единичного теста пока недостаточно используется как в науке, так и на практике.

С помощью комплексного теста оценивается несколько признаков или компонентов разных или одной и той же способности, например, прыжок вверх с места (со взмахом рук, без взмаха рук, на заданную высоту). На основании этого теста можно получить информацию об уровне скоростно-силовых способностей (по высоте прыжка), координационных способностей (по точности дифференцирования силовых усилий, по разности высоты прыжка со взмахом и без взмаха рук).

Тестовый профиль состоит из нескольких отдельных тестов, на основании которых оцениваются или несколько различных физических способностей (гетерогенный тестовый профиль), или несколько проявлений одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что дает возможность быстро сравнивать индивидуальные и групповые результаты.

Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных шкал. Как и в тестовом профиле, различают гомогенную и гетерогенную батареи.

Гомогенная батарея или гомогенный профиль находят применение в оценке всех компонентов комплексной способности (например, способности к реакции). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (коррелировать).

Гетерогенный тестовый профиль или гетерогенная батарея служат оценке комплекса (совокупности) различных двигательных способностей. Например, такие батареи тестов используются для оценки силовых, скоростных способностей и способностей к выносливости — это батареи тестов физической подготовленности.

В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно решаемые задания прыжкового теста.

В определении двигательных тестов указывается, что они служат оценке двигательных способностей и частично моторных навыков. В этой связи в самом общем виде выделяют кондиционные тесты, координационные тесты и тесты для оценки двигательных умений и навыков (техники движений). Такая систематизация является, однако, еще слишком общей. Классификация двигательных тестов по преимущественным их показаниям вытекает из систематизации физических (двигательных) способностей. В этой связи различают кондиционные тесты (для оценки силы: максимальной, скоростной, силовой выносливости; для оценки выносливости; для оценки скоростных способностей; для оценки гибкости: активной и пассивной) и координационные тесты (для оценки координационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности; для оценки специфических координационных способностей — способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи), вестибулярной устойчивости, произвольному расслаблению мышц).

Таким образом, каждая классификация — это своеобразные ориентиры для выбора (или создания) того типа тестов, которые в большей мере соответствуют задачам тестирования.

Лекция

Задачи тестирования. Метрологические требования к тестам

В этой лекции Вы познакомитесь с задачами тестирования двигательных способностей и с основными критериями добротности двигательных тестов.

аряду с научными задачами в практике разных стран задачи тестирования сводятся к следующему:

· научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений;

· стимулировать учащихся к дальнейшему повышению своего физического состояния (формы);

· знать не столько исходный уровень развития двигательной способности, сколько его изменение за определенное время;

· стимулировать учащихся, добившихся высоких результатов, но не столько за высокий уровень, сколько за запланированное повышение личных результатов.

Одной из причин того, что за последние 25 лет у детей и подростков США не повысился, а даже понизился уровень физической подготовленности, известный специалист Р.Б. Крафт называет традиционный подход к тестированию, когда результаты стандартизированных тестов и нормативов сравниваются с показанным результатом, что может вызывать у большинства учащихся негативное отношение к тестированию. Тестирование же должно способствовать повышению интереса у школьников, приносить им радость, а не вести к развитию комплекса неполноценности. В этой связи ученый говорит о необходимости пересмотра организации тестирования. Им разработана батарея тестов, в которой:

· результаты тестов не сравниваются с нормативами, оценка их выполнения основана на изменениях, происшедших за определенный период времени;

· все компоненты теста модифицируются; используются облегченные варианты упражнений (упражнения, входящие в содержание теста, должны быть достаточно легкими, чтобы вероятность успешного выполнения была ее лика; оценки ноль и со знаком минус исключены, только получение положи тельных результатов).

Итак, при тестировании важно сближение научных (теоретических) задач и лично значимых положительных для человека мотивов участия в данной процедуре.

Понятие «двигательный тест» отвечает своему назначению тогда, когда тест удовлетворяет соответствующим основным критериям: надежности, стабильности, эквивалентности, объективности, информативности (валидности), а также дополнительным критериям: нормированию, сопоставляемости и экономичности.

Под надежностью теста понимают степень точности, с которой он оценивает определенную двигательную способность независимо от требований того, кто ее оценивает. Надежностьпроявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном проведении контрольного упражнения. Другими словами, ребенок в группе обследуемых по результатам повторных тестирований (например, показателей прыжков, времени бега, дальности метания) устойчиво сохраняет свое ранговое место.

Надежностьтеста определяется с помощью корреляционно-статистического анализа путем расчета коэффициента надежности. При этом используют различные способы, на основании которых судят о надежности теста.

Надежностьтестов определяют также по сопоставлению средних оценок четных и нечетных попыток, входящих в тест. Например, среднюю точность бросков в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надежности называется методом удвоения, или расщеплением. Он используется преимущественно при оценке координационных способностей и в том случае, если число попыток, образующих тестовый результат, не меньше шести.

Надежностьтестов можно повысить различными путями: более строгой стандартизацией тестирования, увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.

Фиксированных значений показателей надежности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95 — 0,99 — отличная надежность; 0,90 — 0,94 — хорошая; 0,80 — 0,89 — приемлемая; 0,70 — 0,79 — плохая; 0,60 — 0,69 — для индивидуальных оценок сомнительная, тестпригоден только для характеристики группы испытуемых.

Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определенное время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надежности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших детей — результаты стабильнее, чем у более младших. Ретест обычно проводится не позднее, чем через неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.

Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов. Например, когда надо выбрать, какой тестболее адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м. В таких случаях может использоваться так называемый метод параллельных форм, когда испытуемым предлагают выполнить две разновидности одного и того же теста и затем оценивают степень совпадения результатов. Рассчитанный между результатами тестирования коэффициент корреляции называется коэффициентом эквивалентности.

Отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надежность оценок или выводов исследования, тогда целесообразно использовать два и больше эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, тогда следует применять только один из эквивалентных тестов. Такая батарея, как отмечалось, является гетерогенной, так как входящие в нее тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов является бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м.

Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами).

Для повышения объективноститестирования необходимо соблюдение стандартных условий проведения теста:

· время тестирования, место, погодные условия;

· единое материальное и аппаратурное обеспечение;

· психофизиологические факторы (объем и интенсивность нагрузки, мотивация);

· подача информации (точная словесная постановка задачи теста, объяснение и демонстрация).

Это так называемая объективность проведения теста. Говорят еще об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.

Информативность теста — это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной (и отечественной) литературе используют вместо слова «информативность» термин «валидность» (от англ. — обоснованность, действительность, законность). Фактически, говоря об информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест(батарея тестов) и какова при этом степень точности измерения.

Различают несколько видов валидности: логическую (содержательную) и эмпирическую (на основании опытных данных).

Тесты, удовлетворяющие требованиям надежности и информативности, называются добротными или аутентичными (от греч. аутентико — достоверным образом).

Важными дополнительными критериями тестов, как отмечалось, являются нормирование, сопоставляемостъ и экономичность.

Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики.

Сопоставляемостъ теста заключается в возможности сравнивать результаты, полученные по одному или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов.

Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников.

Лекция

Основные понятия теории оценивания

В этом разделе Вы узнаете, что такое оценка и как она используется в области физического воспитания и спорта

ак известно, основным способом контроля в физическом воспитании и спорте является тестирование. Хорошо если используется только один тест, тогда спортсменов можно просто ранжировать в соответствии с показанным результатом и таким образом увидеть кто лучше, а кто хуже, либо по непосредственно занятому месту. А в случае, если тест является промежуточным и используется в текущем или оперативном контроле при подготовке к соревнованиям? А если необходимо сравнить спортсменов по результатам нескольких тестов или по разным тестам? Результаты тестов, как известно, выражаются в разных единицах измерения (в секундах, метрах, килограммах, количестве раз). В этой связи тесты непосредственно не сопоставимы друг с другом (например, что легче пробежать 100 метров за 11,5 секунд или проплыть 100 метров за 1 минуту?). Кроме того, из результата теста, скажем, прыжка в длину на 200 см не ясно, хороший это показатель или плохой, если не указать, о ком конкретно идет речь. Задачи тестирования подобного рода решаются с опорой на теорию оценок.

4 5 6 7 8 9 10

Подборка статей по вашей теме: