Объединение однородных выборок

Простое объединение рекомендуется только для однородных выборок. Постановка задачи проверки однородности выборок формулируется следующим образом.

Имеются результаты наблюдений в виде совокупности выборок типа (6.1), задан уровень значимости a для проверки статистической гипотезы об однородности выборок.

Необходимо проверить однородность слоев.

Допущение: законы распределения случайных величин для различных слоев неизвестны.

Проверка однородности полной расслоенной выборки относительно сложна в реализации и не позволяет выделить те выборки, которые существенно различаются по своим свойствам. Более практично использовать последовательную процедуру проверки и попарного объединения выборок. В качестве исходной выборки можно взять любую, например, первую или наибольшую по количеству элементов. В качестве второй выбирается любая из оставшихся выборок. Эти две выборки проверяются на однородность. При ее наличии выборки объединяются в одну, а при ее отсутствии вторая выборка остается самостоятельной. Указанную проверку и объединение повторяют для всех слоев исходной выборки.

Определение однородности двух выборок проводится на основе проверки статистической гипотезы Н₀ о том, что выборки и принадлежат одному, пусть и неизвестному, закону распределения. При этом применяют критерии знаков, критерий Вилкоксона (Вилкоксона – Мана – Уитни) и другие. Существенной особенностью критерия знаков является требование равного объема сравниваемых выборок, правда, это требование легко выполнить, "обрезав" при рассмотрении более длинную выборку (но такая операция приводит к потере части информации при сопоставлении выборок). В интересах решения поставленной задачи целесообразно применять второй критерий – критерий Вилкоксона.

Проверка однородности выборок по критерию Вилкоксона состоит в следующем. Пусть для случайной величины Х имеется выборка объема n_x и для случайной величины Y выборка объема n_y. По этим выборкам необходимо с уровнем значимости a проверить гипотезу Н₀ о том, что функция распределения F(x) случайной величин Х равна функции распределения F(y) случайной величины Y. Конкурирующая гипотеза – функции распределения случайных величин различны: F(x) < F(y) или F(x) > F(y), т.е. критическая область двусторонняя.

Сущность проверки основана на простой идее: если верна гипотеза Н₀,то нельзя ожидать преобладания наблюдений одной из выборок на любом из концов вариационного ряда, иначе говоря, результаты наблюдений из каждого слоя должны быть рассеяны по всему вариационному ряду. Такая проверка осуществляется только по порядковым соотношениям x > y и x < y между элементами выборок.

Далее считается, что объем первой выборки не превышает объема второй. Если это условие не выполняется, то выборки просто меняются местами. Проверка гипотезы однородности имеет свою специфику для разных объемов выборок.

Пусть n_x >3, n_y >3 и суммарный объем обеих выборок не превосходит 25. Проверка гипотезы осуществляется поэтапно:

· из выборок исключаются одинаковые элементы (вероятность совпадения элементов весьма невелика, поэтому число исключаемых членов выборок не будет большим);

· на основе элементов обеих выборок строится общий вариационный ряд, индексы и конкретные значения элементов можно опустить. В результате получится просто последовательность букв y и x, например xxxyxyyxxxyyy;

· подсчитывается сумма порядковых номеров u вариант первой (меньшей по объему) выборки. В приведенном примере n_x > n _y (n_x = 7 и n_y = 6), поэтому первой будем считать выборку для величины Y. Буква y встречается на четвертом, шестом, седьмом, одиннадцатом, двенадцатом и тринадцатом местах, следовательно

u =4+6+7+11+12+13=53.

Случайная величина u имеет распределение Вилкоксона. Для нее построена специальная таблица нижних критических точек распределения.

· по таблице критических точек для n_y = 6, n_x = 7, заданного уровня значимости, например a = 0,05 (критическая область двусторонняя, следовательно, каждая сторона критической области соответствует уровню значимости a /2 = 0,025), определяется нижняя критическая точка ин. В данном случае u_н = 27;

· вычисляется верхняя критическая точка u_в = (n_y+n_x+ 1) n_y – u_н. Для рассматриваемого примера

u_в = (6+7+1)6 – 27 = 57;

· если u < u_н или u > u_в, то нулевую гипотезу отвергают. В противном случае нет оснований для отклонения нулевой гипотезы. В приведенном примере нулевая гипотеза об однородности выборок принимается.

Сумма порядковых номеров вариант первой выборки с увеличением общего объема выборок стремится к нормальному распределению. Нормальное распределение можно применять, если n_x >3, n_y >3 и объем хотя бы одной из выборок превосходит 25. В таком случае значение нижней критической точки величины u при n_x · n_y

(6.2)