Линейная регрессия

Проблема. В настоящий момент имеет место всё более широкое использование бронхологических методик в пульмонологии, в т.ч. и в группе соматически тяжёлых больных с выраженной бронхообструкцией и тяжёлой дыхательной недостаточностью. Небольшое количество работ посвящено оценке изменений сатурации кислорода SaO2 (насыщение крови кислородом, выраженное в %) под влиянием проведения фибробронхоскопии, причём это касается, прежде всего, постбронхоскопического периода. Во всех случаях отмечалось снижение резервов оксигенации после бронхологического вмешательства. Вместе с тем изучению динамики SaO2 непосредственно во время проведения бронхологического вмешательства почти не уделяется внимания. В ходе проведённых исследований выявлено, что зависимость SaО2 (y) от времени проведения ФБС (τ) определяется в виде суммы двух функций: y(τ) = y1(τ) + y2(τ). Функция y1(τ) отражает линейную составляющую и функция y2(τ) периодическую составляющую. Предметом настоящего рассмотрения стала линейная составляющая функциональной зависимости SaО2 от времени проведения ФБС.

Вернемся к графику, который показывает зависимость между ростом и весом (рисунок 24). Мы уже оговорили, что между этими величинами существует связь и эта связь линейная. А теперь попытаемся вывести некоторую функцию (математическое правило), которая позволяла бы определять, хотя бы приблизительно, изменение веса при изменении роста.

Регрессия – это функция, связывающая зависимую величину y с независимой величиной x. Она показывает, как в среднем изменяется y при изменениях x. Из математики нам известны различные функции: линейная, квадратичная, экспоненциальная, тригонометрические и т.д. Простейшей функцией является линейная, график этой функции изображен на рисунке 28. Уравнение линейной регрессии имеет вид

(50)

где – зависимая переменная, x – независимая переменная, b0 и b1 – постоянные коэффициенты

Основная задача регрессионного анализа найти постоянные коэффициенты b0 и b1 и оценить их статистическую значимость. Дело в том, что через точки на диаграмме рассеяния можно провести сколь угодно много прямых линий (вывести множество функций), все они будут отличаться друг от друга коэффициентами b0 и b1. Необходимо выбрать из них такую, которая наилучшим образом описывает связь между y и x. Одним из способов сделать это применить метод наименьших квадратов (МНК).

Как уже отмечалось, уравнение регрессии показывает, как в среднем меняется y, т.е. конкретные его значения, полученные в опыте, и рассчитанные по уравнению могут не совпадать – есть некоторая ошибка. Из рисунка 27 видно, что для одних значений y эта ошибка меньше, для других – больше.

Суть МНК в том, чтобы вывести такое уравнение регрессии, для которого сумма квадратов всех ошибок была бы наименьшей. После некоторых математических выкладок, которые мы здесь приводить не будем, можно получить, что такое уравнение имеет следующие коэффициенты b1 и b0.

(51)

(52)


Рисунок 27. Метод наименьших квадратов

Уравнение регрессии фактически является математической моделью взаимосвязи двух случайных величин. Качество этой модели, т.е. насколько хорошо она отражает эту связь, можно оценить с помощью коэффициента детерминации R2, который равен квадрату коэффициента корреляции между величинами (×100 %). Он показывает, сколько процентов исходных (выборочных) данных вписывается в полученную модель, или какой процент изменчивости y объясняется влиянием x.

При проведении фибробронхоскопии были получены следующие данные по динамике SaO2 Таблица 53. Данные к примеру
Время, сек                    
SaО2, %                    

Для получения уравнения регрессии проведены расчеты

Таблица 54. Результаты расчетов

i xi yi ()() ()2
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
  165 79     ∑=3840 ∑=74250    
          b1 = 0,05 b0 = 87,5    

Окончательно уравнение регрессии имеет вид

SaО2 = 0,05τ+87,5

Интерпретация: линейная компонента зависимости SaO2 от времени проведения ФБС (τ) отражает, по нашим представлениям, как бы результирующий вектор кислородоустойчивости организма. При отсутствии кислородной подачи во время проведения ФБС непосредственный гипоксический эффект, сопровождающий введение в трахеобронхиальное дерево фибробронхоскопа (крупного инородного тела, частично обтурирующего просвет), явно превалирует над более отдалённым положительным эффектом эвакуации бронхиального секрета. Поэтому линейная компонента здесь будет иметь чётко убывающий характер.

График функции представлен на рисунке 28.

Рисунок 28. Изменение SaO2 во времени

Поскольку уравнение регрессии находится по выборочным данным, обязательным является процедура проверки на статистическую значимость коэффициентов b1 и b0 и самой модели, которая осуществляется с использованием критериев Стъюдента и Фишера. В таблицае 55 приведено решение этой задачи в ППП STATISTICA

Таблица 55. Результаты статобработки

r = 0,93 R2 =0,87 F (1,8)=54,028 p =0,000
  значение коэффициента станд. ошибка коэффициента tСтъюдента pуровень
b0 87,5 1,31 66,8 0,000
b1 0,05 0,007 7,3 0,000

Из нее видно, что между анализируемыми величинами существует сильная прямая связь (r = 0,93), коэффициенты уравнения регрессии статистически значимы (по критерию Стъюдента), само уравнение регрессии также статистически значимо (по критерию Фишера), оно объясняет до 87% вариации SaO2 (R2 =0,87).

Уравнение регрессии, как правило, используются для прогноза, т.е. по нему, зная величину x, можно вычислить возможное значение y. При этом вы должны быть уверены, что общая тенденция развития явления сохранится за пределами наблюдений. В противном случае прогноз можно осуществлять только в пределах наблюдаемых значений x.

Предположим мы прогнозируем некоторое значение у при заданном х=х0. Тогда доверительный интервал для прогноза составляет

(53)

где (54)

– среднеквадратичное отклонение у вследствие ошибок модели, t критерий Стъюдента для заданного α и f=n2

Решим задачу прогноза сатурации кислорода SaO2 через 200 сек после начала ФБС.

SaО2 = 0,05τ+87,5=0,05×200+87,5=77,5 %

Для расчета доверительного интервала дополним таблицу 56

Таблица 56. Результаты расчетов

i xi yi ()2
             
        84,5 2,5 6,25
             
        81,5 1,5 2,25
             
        78,5 0,5 0,25
             
        75,5 0,5 0,25
             
        72,5 2,5 6,25
  165 79 ∑=74250     Σ=30,25

Тогда

Таким образом, на 200 сек. фибробронхоскопии сатурация кислорода составит от 76 до 79%.

Если независимых переменных много x1, x2, x3, x4, т.д., то возможно построение уравнение множественной линейной регрессии

(55)

Например, САД зависит от возраста, ИМТ, рациона питания и т.д. (см. Таблицу 57).

Таблица 57. Результаты статобработки

r = 0,6 R2 =0,36 F (4,433)=60,3 p =0,000
  Коэффициенты bi Ст. ошибка коэффициента t Стъюдента pуровень
признак    
свободн. член 16,5 11,12 1,48 0,139
ЛПВП 2,5 2,20 1,16 0,247
Возр 0,3 0,12 2,47 0,014
Холест. 3,2 0,69 4,57 0,000
ИМТ 5,5 0,39 14,18 0,000

Уравнение регрессии имеет вид

В данном примере коэффициент множественной корреляции равен 0,6, т.е. модель объясняет до 36% вариаций систолического артериального давления. Она является статистически значимой (т.е. не случайной). Если судить по p уровню, то САД зависит от возраста, содержания холестерина в крови и от индекса массы тела. Связь с уровнем липидов не подтверждается. В таблице 58 приведены частные коэффициенты корреляции отдельных признаков с САД, а также оценка их статистической значимости. Самая сильная связь наблюдается с индексом массы тела (r = 0,563), с возрастом и уровнем холестерина связь слабая, а с ЛПВП статистически незначимая.

Таблица 58. Частные коэффициенты корреляции

признак Частная корреляция t Стъюдента p уровень
ЛПВП 0,056 1,16 0,247
Возр 0,118 2,47 0,014
Холест 0,214 4,57 0,000
ИМТ 0,563 14,18 0,000

Перед использованием множественной регрессии проверьте соблюдение некоторых условий:

- зависимая величина является количественной непрерывной, а независимые могут быть количественными или ординальными

- независимые величины не должны сильно коррелировать между собой, в этом случае нужно отобрать один наиболее значимый признак

- число наблюдений должно примерно в 10 раз превосходить число анализируемых признаков

Если взаимосвязь между величинами имеет более сложный характер, чем линейный, то возможны нелинейные модели, например такого вида

(56)

Для анализа таких моделей также существуют статистические методы, однако для их освоения требуются специальные математические знания. Описание этих методов можно найти в специальной литературе.

Контрольное задание 13:

По данным из таблицы 59 вывести уравнение регрессии. Для этого воспользоваться мастером диаграмм программы MS Excell. Определить концентрацию гормона в моче у лиц возраста 70 лет.

Таблица 59. Данные к заданию

Содержание андростеронов в моче (мг/сутки) 0,82 0,90 0,98 1,06 1,20 1,29
Возраст (лет)            


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: