Регрессионный анализ. Основная проблема – выбор адекватных методов статистической обработки

3.3.1

Основная проблема – выбор адекватных методов статистической обработки.

Ранее достаточным считался метод, основанный на простых формах корелляционного и регрессионного анализа одномерных систем. (конец XIX века)

Основные методы современной многомерной статистики.

Статистическая совокупность - объекты, с которыми имеют дело в медицине, обладают большой вариативностью, то есть их характеристики изменяются во времени, в пространстве, существенно отличаются друг от друга, следовательно характеристика таких объектов представляется в виде матрицы наблюдаемости, где столбцы – различные признаки, а строки – различные объекты (или разные моменты времени для одного объекта). В силу этого, значения характеристик приходится считать случайными и применять стохастические методы.

Считается, что выборка описывает свойства всей совокупности. (Например: из партии берем десяток, снимаем характеристики и присваиваем эти характеристики всей партии.)

Основные задачи статистических исследований:

Выявление и анализ закономерностей, присущих объектам выборки с целью установления возможности и достоверности перенесения сделанных выводов на генеральную совокупность.

Признаки, характеризующие объекты, подразделяются на:

1) Количественные (вес, рост, давление)

2) Порядковые (хрипы в легких, кашель)

3) Качественные

Пространство признаков – набор учитываемых при исследовании признаков. Значение всех признаков для данного объекта однозначно определяет его положение, как точку в пространстве признаков.

Закон распределения случайной величины – это функция, определяющая вероятность того, что какой-либо признак примет заданное значение (дискр. признак) или попадёт в определенный интервал при большом количестве выборочных данных, значение которых варьируется незначительно.

Основными инструментами статистики являются гипотезы. Главный закон – нормальный закон (Гаусса)

χ – значение исследованного количества признаков для одного измерения

М – математическое ожидание

σ – среднее квадратичное отклонение

σ^2 – D – дисперсия

в диапазоне 3 σ вероятность попадания в диапазон составляет 0.9972

Оценка математического ожидания по выборке (выборочное среднее) является случайной величиной и описывается распределением Стьюдента (показывает вероятность распределения вероятности распределения)

На основании распределения строятся доверительный интервал случайных величин. Для сравнения выборочных дисперсий 2х серий наблюдений используют распределение Фишера.

Для дискретных величин применяют распределение Пуассона (закон результирующих явлений):

- вероятность того, что случайная величина примет значение k

M – математическое ожидание.

Второй основной закон – закон распределения числа взаимоисключающих событий, при конечном числе испытаний – биномиальное распределение. Широко распространено в исх. диагностике и при анализе популяционных процессов.

Статистическое оценивание – метод, который применяется в медицинских исследованиях в случае, когда получаемых данных недостаточно для установления вида функции распределения случайных величин.

Оценки бывает 2-х типов:

1) Точечные

2) Интервальные

Точечные – набор чисел, они могут быть либо средним значением, либо дисперсией.

Интервальные – интервал значений, в которых может находиться данная величина с данной вероятностью.

Оценка проводится на основании распределения Стьюдента, если число наблюдений находится в районе пятидесяти.

Нормальный закон распределения применяется в случае большего количества наблюдений.

Интервал, в который с заданной вероятностью попадают генеральные характеристики, называют доверительным интервалом, а сама вероятность – доверительной.

В медицинских исследованиях используют 3 порога доверительной вероятности β – 0.95, 0.99, 0.999.

Уровень значимости – величина, обратная β и составляет 0.05, 0.01 и 0.001 соответственно.

Проверка статистической гипотезы – установка связи и определение принадлежности 2-х имеющихся выборок к одной генеральной совокупности. Применяется при анализе заболеваемостей, эффективности препаратов и т.д.

Гипотеза о том, что две выборки не различаются (т.е. принадлежат одной совокупности) называется нуль-гипотезой.

Для проверки этих гипотез применяют критерий параметричности и непараметричности.

В 1-м случае производят сравнение двух выборочных распределений (например, среднего значения и дисперсии), далее делается заключение о гипотезе (Стьюдента)

Во 2-м случае – критерий Уилкоксона, Колмогорова, Смирнова. Они основаны на непрерывности распределений.

Дисперсионный анализ – статистический метода, применяемый для выявления влияния отдельных факторов на изучаемый признак и оценку степени этого влияния.

Для оценки количеств. Факторов применяют разбивку на градации. Для каждой градации подсчитывается среднее значение → дисперсия среднего значения, далее вычисляется общая дисперсия изучаемого показателя.

Общая дисперсия – сумма средней дисперсии и дисперсии случайных факторов.

α – число градаций фактора. N – объем статистической совокупности.

Анализ зависимости между признаками

Для оценки степени взаимосвязи 2-х количественных признаков чаще всего используют коэффициент корреляции.

R – Коэффициент корреляции

- соотв. отклонение

x,y – соотв. математическое ожидание.

Если R=0, то они не связаны (не коррелированы)

В простейшем виде R отражает линейную связь между признаками, т.е. изменением обоих признаков пропорционально во всём диапазоне.

Корреляционное отношение используют в случае нелинейной связи между 2-мя признаками:

- дисперсия второго признака за счет влияния первого.

D – общая дисперсия второго признака.

η принадлежит интервалу [0;1]

Регрессия - среднее значение одной случайной величины от некоторой другой является одним из первых методов, примененных для статистического исследования вмедицине и биологии.

- случайная ошибка с нулевым математическим ожиданием

f - функция регрессии.

Если - скалярная величина, то регрессия – парная

Если - векторная величина, то регрессия – множественная.

Задача регрессионного анализа – нахождение функции f, описывающей зависимость y от x.

Оценка производится по следующим методам:

1) Метод наименьших квадратов.

2) Метод максимума правдоподобия.

Понятие факторного анализа – совокупность методов исследования многомерных признаков за счет снижения их размерности.

Для этого вводятся общие факторы, которые не могут наблюдаться непосредственно, за счёт этого размерность является многомерной, в отличие от предыдущего.

В медицине методы факторного анализа применяются для решения двух взаимосвязанных задач:

1) Группировка исходной системы признаков на основе их корреляционных связей.

2) Сжатие информации за счет построения системы обобщенных индикаторов.

Кластерный анализ – группа методов статистической обработки, которая включает методы классификации объектов, в том числе автоматические, на основе их свойств:

В случае невозможности нахождения сложных методов (аналит, стохаст.) прибегают к эвристическим методам – методам, которые интеллектуальную деятельность человека.