Mетодические критерии качества измерений в социальных науках

Качество результатов измерения принято оценивать
по следующим общепринятым критериям: 1) объективность;
2) надежность; 3) валидность и др.

Тест успеваемости считается объективным тогда, когда удается максимально исключить интерсубъектные воздействия исследователей на его результаты, когда результаты не зависят от личности человека, проводящего измерение, подводящего итоги и интерпретирующего полученные данные. Объективность характеризуется корреляцией между результатами, полученными двумя оценивающими лицами. Необходимо, чтобы коэффициенты корреляции в этом случае были близки к единице (= 1).

В целях обеспечения объективности проведение, обработка и интерпретация (оценка) результатов работы должны быть строго нормированы. Констатация и оценка или измерение и интерпретация должны быть максимально отделены друг от друга. С этой целью должны быть составлены точные инструкции проведения работы, исправления ошибок и оценки результатов.

Объективность проведения измерений требует, чтобы все учащиеся были подвергнуты одному и тому же испытанию в аналогичных условиях. Например, испытание должно длиться для всех одинаковое количество времени. Необходимо следить за тем, чтобы учащиеся не списывали друг у друга в процессе выполнения работы. Во избежание этого тест успеваемости необходимо проводить с совершенно отделенными друг от друга учащимися в двух или даже в четырех параллельных вариантах.

Большую трудность представляет обеспечение объективности интерпретации результатов исследования. Об объективности интерпретации можно говорить в том случае, когда несколько лиц одинаковым образом интерпретируют одни и те же результаты при обработке данных, устанавливают одни и те же взаимосвязи. Для большей объективности обработки данных рекомендуется в анкетировании, тестировании, наблюдении использовать закрытые вопросы, когда достаточно поставить крестик, цифру, выбрать одно слово из нескольких. Так как при оценке одной и той же работы с открытыми вопросами, свободной формой конструирования ответа разными учителями по-разному, имеет место субъективность обработки данных.

Объективность никогда не становилась самоцелью. Она является только предпосылкой надежности и валидности измерений. Необъективное измерение не может быть надежным и валидным.

Надежность теста – один из критериев качества теста, относящийся к степени точности измерений того или иного конкретного признака. Чем больше надежность теста, тем относительно свободнее он от погрешностей измерения.

В тестовой методике общепринято учитывать три коэффициента надежности: 1) коэффициент стабильности или постоянства, который представляет собой коэффициент корреляции между результатами тестирования при первом и повторном испытании одним тестом одного и того же ученического коллектива; 2) коэффициент эквивалентности, представляющий собой коэффициент корреляции результатов тестирования одного и того же контингента испытуемых вариантами одного и того же теста, либо разными, но эквивалентными по форме и цели тестами; 3) коэффициент внутреннего постоянства, или внутренней однородности, являющийся коэффициентом корреляции результатов частей теста, показанных одними и теми же испытуемыми.

При определении надежности теста успеваемости чаще всего используется коэффициент внутреннего постоянства, обычно посредством методов дисперсионного и факторного анализа. В тесте успеваемости коэффициент надежности (коэффициент корреляции) должен быть > 0,7.

При определении надежности следует учитывать, что в каждом результате измерения присутствуют «истинная» и «искажающая» части. Предпринимаются попытки оценить соотношение этих частей с помощью различных методов, которые применяются при конструировании тестов. Обычно используется метод повторного тестирования, метод деления пополам и метод параллельного тестирования.

Метод ретеста или повторного теста позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте самокорреляции (коэффициенте релиабильности). Тем самым замеряется внутренняя константность теста, то есть в какой мере все задания теста замеряют одно и то же свойство. Обычно коэффициент релиабильности обозначается rjj. Положительным считается результат самокорреляции теста, при котором, как указывалось выше, rjj > 0,7. Этот метод редко применяется при измерении успеваемости, так как при повторном тестировании приходится считаться с эффектом тренировки, который оказывается тем сильнее, чем легче для запоминания задания и короче промежуток времени между первой и второй обработкой полученных данных.

Метод деления пополам может устранить вышеназванное препятствие. В этом случае подборка однажды выполненных заданий делится пополам. В первый полутест входят задания с нечетным порядковым номером, а во второй полутест – с четным. Подборка заданий может быть разделена надвое и на основании какого-либо другого принципа. Затем устанавливаются результаты каждого испытуемого по обоим полутестам и вычисляется коэффициент корреляции между полутестами, что дает сведения о надежности применяемого метода. Надежность теста успеваемости вычисляется по формуле:

Где R – надежность теста успеваемости;

r1,2 – коэффициент корреляции между половинами теста успеваемости.

Метод параллельного теста. При методе параллельного теста для измерения одних и тех же знаний конструируются два различных набора заданий, которые по своему содержанию напоминают близнецов. Оба параллельных набора заданий можно предложить непосредственно друг за другом или при удобном случае. Эффект запоминания возникнуть не может, так как актуальная постановка заданий в каждом наборе несколько иная.

Составление эквивалентных тестов по естественно-математическим циклам достаточно просто, а по гуманитарным – более сложно. Каждый вопрос теста или контрольной работы проверяется методом (хи-квадрат). Учащиеся при этом выполняют задание по первому варианту, потом по второму. После чего вычисляется корреляция между полученными результатами. Если коэффициент корреляции тестов > 0,7, то тест считается надежным. Для вычисления корреляции применяют формулу:

Помимо общепринятых вышеперечисленных методик при определении надежности тестов иногда используются метод сравнения групп и метод сравнения трудности заданий.

Метод сравнения групп организуется следующим образом. Проводится контрольная работа в «сильной» и «слабой» группах учащихся, после чего подводятся итоги, сравниваются полученные результаты и вычисляется коэффициент корреляции по следующей формуле:

Где k – количество вопросов;

– 27 % от общего количества учащихся N;

S(VN + VT) – сумма ошибок в «слабой» и «сильной» группах.

Сравнение степени трудности задач. Степень трудности задач обычно сравнивается методом теста с использованием системы четырех полей:

Где Б – количество учащихся, которые решили правильно первую задачу, неправильно вторую задачу;

B – количество учащихся, которые решили правильно вторую задачу, неправильно первую (см. табл. 3).

Число степеней свободы 1, поэтому можно считать разность между степенями трудности первой и второй задач незначительной, и эти задачи можно применять в разных вариантах контрольной работы (по специальной таблице мы узнаем, что ).

Таблица 3

Сравнение степени трудности задач

Первую задачу решили	Вторую задачу решили	Всего
Правильно	Неправильно
Правильно	40 (А)	10 (Б)	50
Неправильно	20 (В)	5 (Д)	25
Итого	60	15

Валидность [< англ. valid – пригодный] – один из основных критериев качества теста. Валидность (адекватность) теста в настоящее время понимается как точное соответствие содержания задаваемой тестом пробы смыслу и содержанию выявляемого признака.

Валидность теста успеваемости характеризуется корреляцией между результатами теста и каким-либо выбранным критерием валидности. Такими критериями могут быть оценка знаний учащихся учителем, результаты, полученные с помощью других методов оценки (например, опроса или контрольной работы), проанализированные компетентными судьями, опытными методистами или преподавателями. При коэффициенте корреляции 0,7-0,9 считается, что валидность теста высока, при 0,45-0,65 удовлетворительная.

Проблема валидности возникает в процессе применения теста, когда ставится задача установить соответствие между степенью выраженности интересующего свойства личности и методом его измерения. Чем валиднее тест, тем лучше он отражает то качество (свойство), ради измерения которого он создан.

Понятие валидности относится не только к тесту, но и к критерию оценки его качества. Чем выше коэффициент корреляции теста с критерием, тем выше валидность. Развитие факторного анализа позволило создавать тесты, валидные по отношению к идентифицируемому фактору. Только проверенные на валидность тесты могут быть использованы в научных исследованиях.

В то же время необходимо заранее предполагать, что ни один элемент измерительного инструментария не является валидным вообще, он может быть валидным лишь в определенном смысле. Математический тест не дает сведений о развитии интеллекта, об уровне владения лингвистическими навыками и др. Математический тест, предназначенный для второго полугодия 6-го класса, не является валидным для другой стадии обучения. Если тест ориентирован на содержание конкретного учебника, то его валидность для учащихся, работавшим по иным учебникам, является проблематичной. В связи с этим определение валидности теста требует постановки дополнительных вопросов: валидность для чего, для какой цели, по какому критерию?

На валидность измерения могут влиять различные факторы. Возрастные, социальные или временные изменения влияют, помимо заранее спланированных педагогических условий, на сформированность тех или иных качеств личности. Незапланированное и неучитываемое воздействие личности педагога-экспериментатора на учащихся. Ошибки и неточности, связанные с субъективностью оценки поступков, мнений и действий наблюдаемых учащихся. Нередко наблюдается случайный отбор школьников для проведения опытно-экспериментальной работы без учета требований типичности характерных проявлений изучаемых сторон личности, в этом случае нарушается условие репрезентативности выборки из генеральной совокупности. Преобладание в экспериментальном классе учащихся с крайними позитивными или негативными проявлениями изучаемого свойства или качества влияет на весь ход опытноэкспериментальной работы. Большая психологическая настроенность, определенная установка на участие в исследовательской работе, которая существует в экспериментальном классе в отличие от контрольного. Как правило, ученики экспериментального класса более податливы к различным воздействиям и влияниям экспериментатора, чем такие же ученики в независимых условиях. Неравномерные изменения в составе классов во время проведения исследовательской работы, так как появление в классе большого количества новых для этого коллектива учеников будет влиять на конечный результат.

Наряду с тремя важнейшими критериями качества измерения в литературе называются и другие критерии. Линерт (Lienert, 1969) различает, например, следующие: а) нормирование теста, позволяющее включать результаты индивидуального тестирования в систему соотносительных понятий; б) сопоставимость теста, возможная благодаря параллельным формам или благодаря тестам с одинаковой валидностью. В таком случае тест можно сравнить с его «близнецом» или «двойняшкой». К тому же при групповых исследованиях в школьных классах параллельные формы затрудняют списывание; в) экономичность теста, имеющая место в том случае, если для проведения тестирования и обработки данных не требуется больших затрат времени и средств, если тест несложен и может использоваться в группах; г) полезность теста, являющаяся максимальной, если существует большая практическая потребность в исследовании данного поведения и если для этой цели еще не разработано или разработано слишком мало методов.

Советский исследователь А. А. Кыверялг подробно описал такой критерий, как диагностическая ценность теста, используемый при конструировании тестов успеваемости.

Диагностическая ценность теста успеваемости определяется путем проведения предварительного опыта с так называемым «нейтральным классом», результаты которого в дальнейшей исследовательской работе не используются. В процессе обработки результата предварительной контрольной работы все полученные данные располагают в возрастающем порядке и определяют медиану, т.е. величину члена, находящегося в середине ряда. Учеников, которые получили оценку ниже медианы, считают «слабыми», тех, кто получил оценку выше медианы, считают «сильными».

Далее при каждом задании выясняется количество правильных и ошибочных ответов «сильных» и «слабых». Результаты заносятся в схему четырех полей.

Предположим, что на первый вопрос из 15 «сильных» учеников 10 ответили правильно, 5 – ошибочно; из «слабых» – 3 правильно, 12 ошибочно.

Составим схему четырех полей (см. табл. 4).

Таблица 4

Результаты теста успеваемости

Количество правильных ответов	Количество неправильных ответов
«Сильные» ученики	10	5
«Слабые» ученики	3	12

Диагностическая ценность задачи представляет собой частное скрещивающихся сумм диагоналей четырех полей, т. е.:

Критической величиной диагностической ценности задачи считают 1,5. Если диагностическая ценность, полученная путем вычисления, больше критической величины 1,5 тогда задача имеет нужную диагностическую ценность. Практически считают частное скрещивающихся сумм диагоналей 3 хорошей диагностической ценностью. Надо обратить внимание на то, что при одной задаче, данной в предварительной контрольной работе, нецелесообразно делить экспериментальную группу на «сильных» и «слабых», это надо делать на основании оценки учителя.

Для оценки диагностической ценности (D) каждого вопроса правильные и неправильные ответы учащихся на каждый вопрос вносятся в таблицу (см. табл. 5).

Таблица 5

Ответы на каждый вопрос теста успеваемости

Вопрос	Неправильные ответы в «слабой» группе VN	Неправильные ответы в «сильной» группе VT	Остаток «сильных» и «слабых» VN – VT	Сумма ответов «сильных» и «слабых» VN+VT
1.	2	0	2	2
2.	12	2	10	14
3.	14	10	4	24
и т.д.	¼	¼	¼	¼
S	= 80	= 60

Диагностическая ценность каждого D вопроса вычисляется по формуле:

Где K – общее количество вопросов (следовательно, и возможных ответов);

– количество учеников в «сильной» («слабой») группе.

Где N – общее количество учеников, которые написали работу;

VN – ошибки в «слабой» группе;

VT – ошибки в «сильной» группе.

Предположим, что для определения диагностической ценности вопросов контрольной работы была проведена контрольная работа с 50 учениками, причем правильные и неправильные ответы трех первых вопросов распределились так, как приведено в таблице (в обеих группах, т.е. в «слабой» и «сильной», было 14 учеников):

количество вопросов 15.

Диагностическая ценность первого вопроса:

Диагностическая ценность второго вопроса:

Диагностическая ценность третьего вопроса:

Практически диагностирующими считаются те задачи, диагностическая ценность которых составляет от 16% до 84%. Если задача слишком легкая и большинство учеников могут решить ее, тогда диагностическая ценность ее ниже 16%, если задача слишком трудная и ее не может решить большинство учеников, тогда диагностическая ценность ее больше 84%. Следовательно, первая задача, приведенная в примере, слишком легкая, третья – слишком трудная, вторая задача имеет удовлетворительную диагностическую ценность.

На основании таблицы 5 можно также сделать заключение о диагностической ценности задач. Это показывает число
(VN – VT), приведенное в четвертом столбце таблицы 5. Чем больше это число, тем выше диагностическая ценность вопроса. Пятый столбец показывает степень трудности задач: чем больше это число, тем труднее задача.

Иногда случается, что число, находящееся в четвертом столбце отрицательное, т.е. на некоторые вопросы «сильные» отвечают неправильно, «слабые» – правильно. Обычно такие вопросы неясно сформулированы, поэтому ответы случайны. При выявлении таких вопросов их следует переформулировать иначе.

Диагностическую ценность теста успеваемости или контрольной работы можно легко определить при помощи знакового теста.

На основании предварительного опыта выбирают «сильных» и «слабых» учеников (27%) и проводят с ними предварительную контрольную работу. Для каждой задачи отмечают в «слабой» и «сильной» группах правильный или неправильный ответ каждого ученика буквой П или Н. Затем вычисляют достоверность различия знаков. Если общее количество однородных знаков («+», или «–»), полученных путем вычисления, больше критического числа, приведенного в специальной таблице, тогда задача имеет достоверную диагностическую ценность.

Хорошим способом проверки валидности теста успеваемости или контрольной работы является и коррелирование результатов теста с оценками учителя об учениках или сравнение с результатами, полученными путем проведения теста, сформулированного по-другому. В таком случае надо также проверить достоверность коэффициента корреляции.

Другим методом решения вопроса о дифференцирующей способности задания может быть следующий способ вычисления так называемого «индекса дифференциации». Испытуемых по результатам выполненных заданий делят на три группы – сильную, среднюю и слабую. Если общее число не делится на 3, то сильную и слабую группу делают по количеству одинаковыми. Индекс дифференциации вычисляется по формуле:

Где K’ – количество правильных ответов в сильной группе,

K ” – количество правильных ответов в слабой группе,

– число испытуемых в группе.

E имеет пределы от –1 до +1. Допустимым считается значение E = +0,4. Меньшее значение E говорит о том, что такая формулировка задания не позволяет различать испытуемых по уровню подготовки. Отрицательное значение E свидетельствует о том, что слабо подготовленные лучше справились с заданием, чем сильные. Следовательно, задание необходимо либо переделать, либо отказаться от него.

После определения диагностической ценности вопросов нельзя исключать вопросы из контрольной работы механически, потому что низкая диагностическая ценность вопроса не всегда зависит от содержания, она может зависеть и от формулировки. Рекомендуется переформулировать вопросы, имеющие малую диагностическую ценность, и затем вторично дать их ученикам в предварительном опыте. Практически вопросами основного эксперимента могут быть те, которые при предварительном опыте дали приблизительно 50% правильных и 50% неправильных ответов.

Если тест или контрольная работа состоит из отдельных вопросов, которые не обязательно систематизированы по содержанию, тогда вопросы основного эксперимента должны быть поданы в тексте по порядку их трудности – в начале более легкие, в конце более трудные.

Трудность или легкость определяется по процентному отношению правильных ответов к общему числу возможных. Тест или контрольная работа имеет хорошую диагностическую ценность в том случае, когда за предусмотренное время сможет ответить на все вопросы 90% учеников (некоторые считают 75%). Это означает, что если все ученики за предусмотренное время смогут ответить на все вопросы, то тест слишком легкий, если за это время на вопросы сможет ответить ниже 90% учеников, то тест слишком трудный.

Степень сложности заданий можно определить при вычислении процента учащихся, получивших верный результат. Если 80% учеников, обрабатывающих задание, решили его правильно, то в таком случае степень сложности этого задания составляет 80 единиц. Степень сложности задания можно вывести с помощью следующей формулы:

Где K – количество учащихся, получивших верные ответы;

N – количество учащихся, решавших задания.

Степень сложности P в числовом выражении тем больше, чем легче задание.

В том случае, когда требуется провести дифференциацию учащихся с самой низкой успеваемостью, создаются легкие тесты, когда необходимо отобрать сильных, обращаются к сложным тестам. В остальных случаях для достижения хорошего результата распределения результатов тестирования стремятся к распределению степени сложности от P = 20 до P = 80 со средней величиной P = 50.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

13 14 15 16 17 18 19

Практические рекомендации по стилистике документов, образующих деловую переписку

Методы и средства гигиенического обучения и воспитания населения

Анализ дебиторской задолженности

Недостатки речного транспорта

ПРОИЗВОДИТЕЛЬНОСТЬ ТРУДА

Индексы переменного и постоянного состава, индекс структурных сдвигов

Самый сильный аргумент, почему эволюция человека не могла быть

Никогда не сдавайтесь, никогда не сдавайтесь, никогда, никогда, никогда – ни перед чем, великим или ничтожным, большим или малым, – никогда не сдавайтесь ни перед чем, кроме как перед соображениями чести и здравым смыслом. Никогда не уступайте силе, никогда не уступайте, даже если вражеская мощь представляется непреодолимой. © Черчилль ==> читать все изречения...

5855

5574