Основные понятия. На практике часто решаются задачи сравнения технологических процессов по различным параметрам: производительности

На практике часто решаются задачи сравнения технологических процессов по различным параметрам: производительности, экономичности, точности достижения определенной технической характеристики и т. д. На языке математической статистики такие задачи формулируются как задачи сравнения или статистической проверки гипотез относительно параметров распределения. Рассмотрим, например, случайную величину X – время пребывания вагона на сортировочной станции. Пусть с. в. X имеет функцию распределения F (x, q), где q – параметр распределения. Предположим, что с целью уменьшения времени простоя вагонов на станции введены усовершенствования в технологический процесс обработки составов. Если мы возьмем одну выборку наблюденных значений с. в. X, полученную до внесения изменений в технологический процесс, а другую – после изменений, и вычислим две точечные оценки и параметра q распределения F (x, q), то они, очевидно, не будут равны между собой. Спрашивается, связано ли это с изменениями, внесенными в технологический процесс, либо разница в значениях оценок обусловлена случайными факторами?

Статистическая гипотеза называется непараметрической, если в ней сформулировано предположение о виде закона распределения исследуемой случайной величины.

Статистическая гипотеза называется параметрической, если в ней сформулированы предположения относительно значений параметров распределения.

Суждения относительно истинности (ложности) статистических гипотез формулируются на основании выборки объема n. Наряду с выдвинутой гипотезой будем рассматривать одну или несколько альтернативных (конкурирующих) гипотез.

Нулевой гипотезой называют выдвинутую гипотезу и обозначают . Обычно нулевые гипотезы утверждают, что различия между сравниваемыми величинами (параметрами или функциями распределения) отсутствуют, а наблюдаемые отклонения обусловлены случайными колебаниями выборки.

Альтернативной называется гипотеза, конкурирующая с нулевой гипотезой в том смысле, что если отвергается нулевая гипотеза, то принимается альтернативная. Ее обозначают .

Пусть для решения задачи сравнения из нормальной генеральной совокупности извлечена выборка объема . Приведем примеры нулевых и альтернативных параметрических гипотез (таблица 1).

Таблица 1Примеры нулевых и альтернативных параметрических гипотез

Нулевые Альтернативные
, или , или
, или , или

Статистическим критерием называется случайная величина , с помощью которой принимается решение о принятии либо отклонении нулевой гипотезы. Для проверки статистических гипотез по критериям значимости необходимо знать условный закон распределения построенной случайной величины в предположении выполнения нулевой гипотезы.

При проверке статистических гипотез по выборочным данным всегда существует возможность принятия ложного решения. Это объясняется тем, что объем выборки конечен, и поэтому нельзя точно определить ни вид функции распределения, ни значения параметров.

Ошибкой первого рода называется ошибка отклонения верной нулевой гипотезы .

Уровнем значимости a статистического критерия называется вероятность совершения ошибки первого рода.

Ошибкой второго рода называется принятие ложной нулевой гипотезы H 0. Вероятность совершения ошибки второго рода принято обозначать буквой b.

Мощностью M статистического критерия R называется вероятность несовершения ошибки второго рода, т. е. M = 1 – b.

Будем рассматривать только один вид статистических критериев – статистические критерии значимости. Это значит, что будет заранее фиксироваться вероятность совершения ошибки первого рода (уровень значимости a). На фиксированном уровне значимости мы можем принять только одно из двух решений: «отклонить проверяемую нулевую гипотезу» или «результаты выборки не дают основания для отклонения нулевой гипотезы».

Зададим уровень значимости a – вероятность настолько малую, что событие с такой вероятностью будет практически невозможным. Обычно выбирают значения a = 0,05; a = 0,01. Например, отклонение нулевой гипотезы при уровне значимости a = 0,05 означает, что мы либо не ошибаемся, т. е. нулевая гипотеза H 0 действительно ложна, либо мы совершаем ошибку первого рода, отклоняя верную гипотезу H 0, причем последнее происходит в среднем в пяти из ста случаев применения данного статистического критерия.

Пусть для проверки некоторой нулевой гипотезы H 0 относительно параметров распределения служит статистический критерий R, для которого известна плотность распределения вероятностей при условии, что нулевая гипотеза верна. Найдем и – критические точки (квантили) распределения R из условий:

Область называется областью допустимых значений случайной величины R. Решающее правило состоит в следующем: если вычисленное по выборке значение статистики R попадает в критическую область, то нулевая гипотеза отклоняется, в противном случае результаты выборки не дают основания для отклонения нулевой гипотезы. Следует отметить, что чем меньше уровень значимости, тем шире область допустимых значений выборочной статистики. При выборе a = 0 область допустимых значений будет представлять всю числовую прямую, и проверка гипотезы в таком случае лишена смысла.

Критическая область, изображенная на рисунке 1, называется двусторонней критической областью. Иногда используются односторонние критические области, если экспериментатор убежден, что R > R 0 или R < R 0 (рисунок 2).

Рисунок 1 – Двусторонняя критическая область статистического критерия

Рисунок 2 – Односторонние критические области проверки статистического критерия

2 Проверка гипотез о математическом ожидании
случайной величины, имеющей нормальное распределение

Пусть случайная величина X имеет нормальное распределение с параметрами a и s. Требуется на основании выборки проверить гипотезу о том, что математическое ожидание с. в. равно некоторому предполагаемому значению a 0:

H 0: a = a 0.

Можно рассмотреть два случая:

1 Известно значение среднеквадратического отклонения s.

Для проверки гипотезы используется критерий значимости

.

Доказано, что если гипотеза H 0 верна, то с. в. u имеет нормальное распределение с параметрами (0; 1), т. е. u ~ N (0; 1).

В таблице 2 приведены условия отклонения нулевой гипотезы в зависимости от вида альтернативной гипотезы, где u a и u a/2 – квантили стандартного нормального распределения для вероятностей a и a/2 соответственно. Значения квантилей стандартного нормального распределения находят по таблице значений функции Лапласа (приложение Г). Некоторые из них приведены в таблице 3. Отметим, что в силу симметричности стандартного нормального распределения u 1 a = – u a.

Таблица 2Условия отклонения гипотезы о равенстве математического ожидания заданному значению при известном среднеквадратическом отклонении

Альтернативная гипотеза Ha Условие отклонения нулевой гипотезы в пользу альтернативной
, либо

Таблица 3Значение квантилей стандартного нормального распределения

a u a a u a a u a a u a
0,005 2,5758 0,025 1,9600 0,950 –1,6449 0,990 –2,3263
0,010 2,3263 0,050 1,6449 0,975 –1,9600 0,995 –2,5758

2 Значение среднеквадратического отклонения s неизвестно.

Для проверки гипотезы используется следующий критерий значимости:

.

Известно, что если гипотеза верна, то с. в. t имеет распределение Стьюдента с степенями свободы, т. е. .

В таблице 4 приведены условия отклонения нулевой гипотезы в зависимости от вида альтернативной гипотезы.

Таблица 4Условия отклонения гипотезы о равенстве математического ожидания заданному значению при неизвестном среднеквадратическом отклонении

Альтернативная гипотеза Условие отклонения нулевой гипотезы в пользу альтернативной
, либо

Пример 1 В графике движения поездов на участке Гомель – Жлобин на основании тяговых расчетов установлено время следования поездов по участку мин. Известно, что случайная величина – время следования поездов на перегоне – имеет нормальное распределение со среднеквадратическим отклонением мин. Инженер-графист отдела перевозок провел анализ графика исполненного движения поездов в течение 6 суток и установил затраты времени для 40 поездов. В результате расчетов выборочное среднее времени следования поезда на участке Гомель – Жлобин составило 115 мин.

Можно ли утверждать, что нормы времени на следование поездов на указанном участке, принятые на основании тяговых расчетов, завышены, и поэтому следует откорректировать времена хода по перегонам участка в нормативном графике?

Из условия следует, что необходимо проверить нулевую гипотезу мин против альтернативной гипотезы мин. Так как из условия известно, что среднеквадратическое отклонение исследуемой случайной величины мин, то для проверки нулевой гипотезы воспользуемся критерием . Вид альтернативной гипотезы указывает на то, что следует воспользоваться критерием с левосторонней критической областью. Примем . Вычислим значение критерия значимости

.

В таблице 3 квантилей стандартного нормального распределения по уровню значимости a = 0,05 находим критическую точку – u a = – u 0,05 =
= –1,64. Поскольку u = –7,4 £ – u a = –1,64, то на заданном уровне значимости нулевая гипотеза отклоняется. Это означает, что с вероятностью ошибки, меньшей 0,05, можно утверждать, что тяговыми расчетами установлены завышенные нормы времени на следование поездов на указанном участке и поэтому следует откорректировать нормативный график движения поездов.

Пример 2 Технологией развоза местного груза на участке Минск – Молодечно предусмотрена норма времени стоянки сборного поезда на станции Уша для выполнения операций прицепки-отцепки вагонов в 45 мин. В отдел перевозок поступил доклад начальника станции Уша, в котором утверждается, что в связи с увеличением числа местных вагонов для станции фактическое время стоянки превысило нормативное. Начальник станции предлагает пересмотреть норму времени стоянки сборного поезда в сторону увеличения. Инженер-технолог отдела перевозок проанализировал отчетные данные времени стоянки 30 сборных поездов на станции Уша за последний месяц. Как на основании собранных статистических данных дать аргументированный ответ на предложение начальника станции?

Пусть по выборке установлено, что выборочное среднее мин и выборочное среднеквадратическое отклонение мин. Зададим уровень значимости .

Из условия следует, что необходимо проверить нулевую гипотезу H 0: a = 45 мин против альтернативной гипотезы Ha: a > 45 мин. Так как точное значение среднеквадратического отклонения неизвестно и альтернативная гипотеза Ha: a > a 0, воспользуемся t -критерием с правосторонней критической областью. Вычислим значение t -критерия:

В таблице квантилей распределения Стьюдента (см. приложение Б) по уровню значимости a = 0,01 и числу степеней свободы n = n – 1 = 29 находим . Так как , то имеющиеся данные не дают оснований для отклонения нулевой гипотезы, т. е. нет оснований пересматривать в сторону увеличения норму времени стоянки сборного поезда на ст. Уша.

3 Проверка гипотез равенства двух случайных величин, имеющих
нормальное распределение

Пусть исследуются две случайные величины X и Y, причем обычно предполагается, что обе они имеют нормальное распределение: X ~ N (a 1, s1), Y ~ N (a 2, s2).

В качестве нулевой гипотезы рассмотрим гипотезу о равенстве математических ожиданий исследуемых величин H 0: a 1 = a 2. В таблице 5 приведены решающие правила для проверки подобного рода гипотез.

Таблица 5Решающие правила для проверки гипотез о равенстве математических ожиданий двух случайных величин

Дисперсия Критерий Распределение критерия Альтернативная гипотеза Условие отклонения нулевой гипотезы
s1 и s2 известны Стандартное нормальное , или
s1 и s2 неизвестны, s1 = s2 Стьюдента с степенями свободы , или

Пример 3 На станции Могилёв-2 произведена реконструкция сортировочной горки: механизирована операция торможения вагонов при скатывании их с горки на пути сортировочного парка, установлены две централизованные тормозные позиции. Необходимо оценить эксплуатационную эффективность новой технологии по сравнению с прежней, когда торможение производилось вручную регулировщиками скорости движения вагонов. С этой целью собраны данные о дополнительных затратах времени за сутки на осаживание вагонов в сортировочном парке. Сбор данных производился в течение 60 дней до реконструкции и 60 дней после реконструкции.

Предположим, что дополнительные затраты времени за сутки на осаживание вагонов в сортировочном парке по старой и новой технологиям соответственно являются нормально распределенными случайными величинами X ~ N (a 1, s1), Y ~ N (a 2, s2), причем a 1 и a 2 неизвестны, s1 и s2 неизвестны, но предполагается s1 = s2.

Пусть также по имеющимся выборкам получены точечные оценки математических ожиданий и среднеквадратических отклонений этих случайных величин мин, мин, мин, мин, ( и – точечные оценки a 1 и a 2 соответственно).

Необходимо проверить нулевую гипотезу о равенстве математических ожиданий H 0: a 1 = a 2 против альтернативной Ha: a 1 > a 2. Найдем значение статистики:

По таблицам квантилей распределения Стьюдента (см. приложение Б) для числа степеней свободы n = n 1 + n 2 – 2 = 60 + 60 – 2 = 118 находим t 0,05; 118 »
» 1,658. Так как t = 3,194 > t 0,05; 118 = 1,658, нулевая гипотеза отклоняется на заданном уровне значимости, т. е. собранные данные позволяют утверждать, что внедрение новой технологии привело к уменьшению затрат времени за сутки на осаживание вагонов в сортировочном парке.

Порядок выполнения работы

1 Изучить теоретические сведения.

2 Записать на диск две выборки случайных величин, которые требуется исследовать (см. приложение А, п. 2).

3 По одной из выборок и заданному значению математического ожидания провести проверку гипотезы о равенстве математического ожидания заданному значению против предложенного вида альтернативной гипотезы:

– вручную рассчитать значение выборочной статистики и сравнить его с критическим значением;

– с помощь процедуры «One-Sample Analysis» пакета Statgrafics (приложение А, п. 7).

4 По двум выборкам провести проверку гипотезы о равенстве математических ожиданий двух нормально распределенных случайных величин против предложенного вида альтернативной гипотезы:

– вручную рассчитать значение выборочной статистики и сравнить его с критическим значением;

– с помощь процедуры «Two-Sample Analysis» пакета Statgrafics (приложение А, п. 8).

5 Сделать выводы.

Контрольные вопросы

1 Что называется статистической гипотезой?

2 Дайте определение параметрической и непараметрической статистических гипотез.

3 Что такое нулевая и альтернативная гипотезы?

4 Что называется статистическим критерием?

5 Что называется уровнем значимости статистического критерия?

6 Что называется областью допустимых значений статистического критерия?

7 Сформулируйте правило принятия решения на основании выборочного значения статистического критерия.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: