Проблема подозрительно выделяющихся значений

Проблема подозрительно выделяющихся значений. Часто при измерении какой-либо величины один или несколько результатов значительно отличаются от основной массы значений. До сих пор и теория и прикладные методы исключения резко выделяющихся результатов разработаны плохо. Ввиду того, что проверяемая выборка может не следовать приписываемой ей статистике, не только выявление, но и устранение аномальных результатов представляет далеко не простую и корректную процедуру.
Для выявления грубых ошибок химического анализа, (как правило, малый объем выборки) принято использовать ряд специальных тестов, таких как “Dixon’s Q”( тест Диксона ) и “MAD-test”. Dixon’s Q используют при малых объемах выборки (n<20-25). Рассчитывают величины Qik, причем величины i,k и соответствующие им статистические функции Qik Выбирают в зависимости от общего числа измерений n. Формулы для расчета представлены в табл. 1.


Таблица 1 Формулы для расчета Qik

n Qik Подозрительно выделяющееся значение
xn x1
3...7 Q1,0 (xn - xn-1)/(xn - x1) (x2 - x1)/(xn - x1)
8...10 Q1,1 (xn - xn-1)/(xn - x2) (x2 - x1)/(xn-1 - x1)
11...13 Q2,1 (xn - xn-2)/(xn - x2) (x3 - x1)/(xn-1 - x1)
14...25 Q2,2 (xn - xn-2)/(xn - x3) (x3 - x1)/(xn-2 - x1)

Найденные значения Qik сравнивают с критическим значением Qкр, соответствующим n и выбранной вероятности ошибки второго рода – “степени риска”. Если Qik> Qкр, то подозрительное значение считается промахом в дальнейшем анализе не используется.

Таблица 2 Критические значения теста Диксона Qкр

Статистическая функция Qik Число измере­ний n Степень риска (вероятность ошибки 2-го рода)
0,005 0,01 0,05 0,10
Q10   4 5 б 7   0,994 0,926 0,821 0,740 0,680 0,988 0,889 0,780 0,698 0,637 0,941 0,765 0,642 0,560 0,507 0,886 0,679 0,557 0,482 0,434
Q11   8 9 10   0,725 0,677 0,639 0,683 0,635 0,597 0,554 0,512 0,477 0,479 0,441 0,409
Q21   11 12 13   0,713 0,675 0,649 0,679 0,642 0,615 0,576 0,546 0,521 0,517 0,490 0,467
Q22   14 15 16 17 18 19 20   0,674 0,647 0,624 0,605 0,589 0,575 0,562 0,641 0,616 0,595 0,577 0,561 0,547 0,535 0,546 0,525 0,507 0,490 0,475 0,462 0,450 0,492 0,472 0,454 0,438 0,424 0,412 0,401

Пример 1. В результате пяти парал­лельных измерений концентрации меди в сплаве получены следующие значения (в процентах): 42,9; 43,3; 43,5; 43,6; 44,8. Предположим, что подозрительно выделяющееся значение 44,8. Величи­на Q10 = (xn– xN-1)/(xn– x1) = (44,8 43,6)/44,8 42,9) = 0,63. Это меньше табличного критического значения Q10 = 0,642 для n = 5 и доверительной вероятности 0,95. Следо­вательно, значение 44,8 не является выбросом при проверке по тесту Диксона. Применение теста Диксона корректно при нормальной совокупности.

MAD-mecm. Основная проблема, возникающая при использовании “Dixon’s Q”, свя­зана с возможностью неправильной оценки стандартного от­клонения s в случае, когда гипотеза о нормальном распреде­лении совокупности неверна. Если сведения о распределении совокупности отсутствуют, можно применить MAD-тест, от­носящийся к робастным, т.е. устойчивым к нарушениям ос­новных предположений, методам. Для оценки дисперсии вы­борки в этом методе используется медиана абсолютных от­клонений (medianabsolutedeviation, MAD):

MAD = median [| Xi - median (Xi)|],

где median — обозначение медианы.

Для проверки гипотезы о том, что подозрительно выде­ляющееся значение Хвьд (Хn или Хi) является выбросом, рас­считывают отношение

[| xвыд - median (xi)|]/MAD

Если это отношение больше 5, то xвыд является грубым про­махом (выбросом) и должно быть отброшено.


Рассмотрим применение MAD-теста. на примере 1. Медиана равна 43,5, величины
[| Хi — median (Xi)|] составляют 0,6; 0,2; 0; 0,1; 1,3. Медиана этих величин MAD = 0,2, отношение [| xвыд - median (xi)|]/MAD равно (44,8—43,5)/0,2 = 6,5 > 5, т.е. результат измере­ния 44,8 является выбросом.

Данное заключение противоре­чит выводу по тесту Диксона, что дает нам право сомневаться в обоих тестах. Тем не менее, использование обоих тестов яв­ляется общепринятым.


Тем не менее существует несколько правил, соблюдение которых необходимо для получения корректных результатов при выявлении грубых промахов:

  • недопустим произвольный отброс подозрительно выделяющихся значений
  • применение тестов для выявления грубых промахов применимы к некоррелированным данным и их нельзя применять к взаимозависимым результатам измерений
  • к каждой выборке может применяться любой подходящий тест, но только один и только однократно. Выявленные выбросы не учитываются при статистических расчетах, но не должны забываться: вообще их показывают на гистограммах, сообщают при выдаче результатов измерений и т.д. Кроме того, каждый выброс должен анализироваться с т.з. причин его появления.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: