Проблема подозрительно выделяющихся значений. Часто при измерении какой-либо величины один или несколько результатов значительно отличаются от основной массы значений. До сих пор и теория и прикладные методы исключения резко выделяющихся результатов разработаны плохо. Ввиду того, что проверяемая выборка может не следовать приписываемой ей статистике, не только выявление, но и устранение аномальных результатов представляет далеко не простую и корректную процедуру.
Для выявления грубых ошибок химического анализа, (как правило, малый объем выборки) принято использовать ряд специальных тестов, таких как “Dixon’s Q”( тест Диксона ) и “MAD-test”. Dixon’s Q используют при малых объемах выборки (n<20-25). Рассчитывают величины Qik, причем величины i,k и соответствующие им статистические функции Qik Выбирают в зависимости от общего числа измерений n. Формулы для расчета представлены в табл. 1.
Таблица 1 Формулы для расчета Qik
n | Qik | Подозрительно выделяющееся значение | |
xn | x1 | ||
3...7 | Q1,0 | (xn - xn-1)/(xn - x1) | (x2 - x1)/(xn - x1) |
8...10 | Q1,1 | (xn - xn-1)/(xn - x2) | (x2 - x1)/(xn-1 - x1) |
11...13 | Q2,1 | (xn - xn-2)/(xn - x2) | (x3 - x1)/(xn-1 - x1) |
14...25 | Q2,2 | (xn - xn-2)/(xn - x3) | (x3 - x1)/(xn-2 - x1) |
Найденные значения Qik сравнивают с критическим значением Qкр, соответствующим n и выбранной вероятности ошибки второго рода – “степени риска”. Если Qik> Qкр, то подозрительное значение считается промахом в дальнейшем анализе не используется.
|
|
Таблица 2 Критические значения теста Диксона Qкр
Статистическая функция Qik | Число измерений n | Степень риска (вероятность ошибки 2-го рода) | |||||
0,005 | 0,01 | 0,05 | 0,10 | ||||
Q10 | 4 5 б 7 | 0,994 0,926 0,821 0,740 0,680 | 0,988 0,889 0,780 0,698 0,637 | 0,941 0,765 0,642 0,560 0,507 | 0,886 0,679 0,557 0,482 0,434 | ||
Q11 | 8 9 10 | 0,725 0,677 0,639 | 0,683 0,635 0,597 | 0,554 0,512 0,477 | 0,479 0,441 0,409 | ||
Q21 | 11 12 13 | 0,713 0,675 0,649 | 0,679 0,642 0,615 | 0,576 0,546 0,521 | 0,517 0,490 0,467 | ||
Q22 | 14 15 16 17 18 19 20 | 0,674 0,647 0,624 0,605 0,589 0,575 0,562 | 0,641 0,616 0,595 0,577 0,561 0,547 0,535 | 0,546 0,525 0,507 0,490 0,475 0,462 0,450 | 0,492 0,472 0,454 0,438 0,424 0,412 0,401 |
Пример 1. В результате пяти параллельных измерений концентрации меди в сплаве получены следующие значения (в процентах): 42,9; 43,3; 43,5; 43,6; 44,8. Предположим, что подозрительно выделяющееся значение 44,8. Величина Q10 = (xn– xN-1)/(xn– x1) = (44,8 – 43,6)/44,8 – 42,9) = 0,63. Это меньше табличного критического значения Q10 = 0,642 для n = 5 и доверительной вероятности 0,95. Следовательно, значение 44,8 не является выбросом при проверке по тесту Диксона. Применение теста Диксона корректно при нормальной совокупности.
MAD-mecm. Основная проблема, возникающая при использовании “Dixon’s Q”, связана с возможностью неправильной оценки стандартного отклонения s в случае, когда гипотеза о нормальном распределении совокупности неверна. Если сведения о распределении совокупности отсутствуют, можно применить MAD-тест, относящийся к робастным, т.е. устойчивым к нарушениям основных предположений, методам. Для оценки дисперсии выборки в этом методе используется медиана абсолютных отклонений (medianabsolutedeviation, MAD):
|
|
MAD = median [| Xi - median (Xi)|],
где median — обозначение медианы.
Для проверки гипотезы о том, что подозрительно выделяющееся значение Хвьд (Хn или Хi) является выбросом, рассчитывают отношение
[| xвыд - median (xi)|]/MAD
Если это отношение больше 5, то xвыд является грубым промахом (выбросом) и должно быть отброшено.
Рассмотрим применение MAD-теста. на примере 1. Медиана равна 43,5, величины
[| Хi — median (Xi)|] составляют 0,6; 0,2; 0; 0,1; 1,3. Медиана этих величин MAD = 0,2, отношение [| xвыд - median (xi)|]/MAD равно (44,8—43,5)/0,2 = 6,5 > 5, т.е. результат измерения 44,8 является выбросом.
Данное заключение противоречит выводу по тесту Диксона, что дает нам право сомневаться в обоих тестах. Тем не менее, использование обоих тестов является общепринятым.
Тем не менее существует несколько правил, соблюдение которых необходимо для получения корректных результатов при выявлении грубых промахов:
- недопустим произвольный отброс подозрительно выделяющихся значений
- применение тестов для выявления грубых промахов применимы к некоррелированным данным и их нельзя применять к взаимозависимым результатам измерений
- к каждой выборке может применяться любой подходящий тест, но только один и только однократно. Выявленные выбросы не учитываются при статистических расчетах, но не должны забываться: вообще их показывают на гистограммах, сообщают при выдаче результатов измерений и т.д. Кроме того, каждый выброс должен анализироваться с т.з. причин его появления.