Анализ качественных признаков НА ВЫБОРКАХ достаточного ОБЪЕМА
Задача 1:
В первой группе была 61 особь (n1=61), во второй группе было 67 особей (n2=67) одинаковой породы.
Первую группу вакцинировали препаратом А, вторую группу вакцинировали препаратом В. После вакцинации в первой группе выявлено 8 случаев заболевания (m1=8), во второй группе 10 случаев заболевания (m2=10) одной и той же болезнью. Необходимо сравнить эффективность вакцин А и В по результатам испытаний на особях данной породы.
Признак, который изучается в данном случае - качественный, он не может быть выражен числом, т.к. это вид вакцины – А или В.
Доля заболевших особей в первой группе:
Доля заболевших особей во второй группе:
Перед нами стоит задача, называемая в прикладной статистике задачей сравнения долей.
Решение:
Чтобы выбрать критерий для сравнения, необходимо выяснить, имеем ли мы выборки достаточно большого объема. Вычисляем среднюю по обеим группам долю заболевших после вакцинации особей:
Общая численность вакцинированных особей
Вычисляем два значения
Если каждое из них больше, чем 5, то выборки считаются большими и приведенный ниже Z-критерий можно применять. Если хотя бы одно окажется равным 5 или меньше, то критерий применять нельзя.
Вычисляем наблюдаемое (наше, выборочное) значение критерия Z с учетом поправки Йеитса (поправки на непрерывность):
Полученное выборочное значение необходимо сравнить с критическим, которое равно:
- для 5% уровня значимости (a=0,05) критическое значение Zкр5%=1,96
- для 1% уровня значимости (a=0,01) критическое значение Zкр1%=2,58
Выводы делают из следующих соображений
- При Z>Zкр на уровне значимости a выборочные доли статистически достоверно отличаются
- При Z£Zкр на уровне значимости a выборочные доли статистически достоверно не отличаются
В приведенном примере Z=0,040 £ Zкр5%=1,96, следовательно, по данным вакцинации двух групп вакцина А и вакцина В не дают достоверных отличий по заболеваемости на уровне значимости 5%.
Z=0,040 £ Zкр1%=2,58, следовательно, по данным вакцинации двух групп вакцина А и вакцина В не дают достоверных отличий по заболеваемости на уровне значимости 1%.
Шаблон для расчетов приведен в файле EXCEL на листе Z-критерий. Достаточно подставить исходные данные в окрашенные желтым цветом ячейки.
Задача 2:
Рассмотреть эти же условия задачи, но с другими данными
| Вакцина А | Вакцина В |
Всего, n | 25 | 19 |
Заболели, m | 18 | 6 |
После заполнения исходных данных в шаблоне расчета получаем, что Z=2,362, то есть на уровне значимости a=5% эффективность вакцин различна.
Вычислим доверительный интервал для разности долей.
Доля заболевших после применения вакцины А в первой группе
Доля заболевших особей после применения вакцины В во второй группе:
Доказано, что эффективность вакцин А и В различна. То есть, разница в доле заболевших после вакцинации особей (разность долей) между группами А и В составляет
или 40%.
Построим доверительный интервал разности долей для доверительной вероятности 95%. (Доверительную вероятность 99% брать нельзя, т.к. на уровне значимости 1% вакцины статистически достоверно не отличаются!).
Вычисляем стандартную ошибку разности долей по формуле:
Доверительный интервал различия для вероятности 95% определяется по формуле:
Zкр5%=1,96
Если в расчетах по другим задачам необходима вероятность 99%, то используют Zкр1%=2,58.
Вывод
С вероятностью 95% при применении вакцины А заболеваемость ниже на 11…70%, чем при применении вакцины В.
В файле-шаблоне предусмотрены оба варианта.
ПРИМЕЧАНИЕ: если левая граница доверительного интервала отрицательное число, то делают вывод о том, что группы статистически достоверно не отличаются.
Шаблон расчета приведен на листе «доверит. Интервал»
Использование c2-критерия для сравнения трех и более групп
Задача: изучается влияние нового препарата на усиление окраски бутонов у роз трех сортов А, В, и С. В каждой из групп было различное количество растений. При этом фиксировалось, обнаружено ли усиление окраски или не обнаружено. Необходимо сделать вывод о том, действительно ли разработанный препарат способен усиливать окраску бутонов.
Исходные данные сведены в таблицу
Сорт роз | Окраска усилилась | Окраска не усилилась | Всего растений |
Сорт А | 14 | 40 | 54 |
Сорт В | 9 | 14 | 23 |
Сорт С | 46 | 42 | 88 |
Всего растений: | 69 | 96 | 165 |
Решение
Вычисляем общую долю растений всех сортов, у которых препарат повлиял на окраску:
Составляем таблицу ожидаемых частот в предположении, что у каждого сорта должно быть по 42% растений, у которых окраска усиливается под действием препарата:
Для сорта А
Окраска должна усилиться
Окраска должна не усилиться
Для сорта В
Окраска должна усилиться
Окраска должна не усилиться
Для сорта С
Окраска должна усилиться
Окраска должна не усилиться
Результаты сведены в таблицу ожидаемых частот, которую еще называют таблицей сопряженности:
Таблица ожидаемых частот (таблица сопряженности)
Сорт роз | Окраска усилилась | Окраска не усилилась | Всего растений |
Сорт А | 22,58 | 31,42 | 54 |
Сорт В | 9,62 | 13,38 | 23 |
Сорт С | 36,80 | 51,20 | 88 |
Всего растений: | 69 | 96 | 165 |
Проверим, можно ли применить критерий хи-квадрат: для этого каждое из значений ожидаемых частот в таблице сопряженности (они выделены желтым цветом), должно быть больше, чем 5. Условие выполняется. Выборки считаются достаточного объема.
Пример расчета приведен на листе «хи-квадрат».
Примем гипотезу о том, что фактор (препарат) НЕ влияет на изучаемый признак (окраску бутонов).
Вызываем мастера формул
Выбираем категорию Статистические, функцию ХИ2ТЕСТ
В поле «Фактический интервал» выделяем желтые ячейки, или исходные данные (строка и столбец «Всего растений» в расчет не идут).
В поле «Ожидаемый интервал» выделяем зеленые ячейки, или данные из таблицы сопряженности (строка и столбец «Всего растений» в расчет не идут).
Получаем вероятность того, что фактор НЕ влияет, равную
Р=0,00812.
Полученная вероятность Р=0,00812 намного меньше уровня значимости a=5% (или 0,05), даже уровня значимости a=1% (или 0,01).
Вывод: гипотезу о том, что фактор НЕ влияет, отклоняем на уровне значимости как 5%, так и 1%.
Решение задач с помощью данного критерия возможно для таблиц сопряженности не только 3 строки – 2 столбца, но и большей размерности. Требуется только построить таблицу сопряженности.