Логистическая регрессия

Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x ₁, x ₂,..., x_n, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

На практике логистическая регрессия используется для решения задач классификации с линейно-разделяемыми классами.

Задана выборка – множество пар , в которых описание -го элемента , и значения зависимой переменной .

Принята модель логистической регрессии, согласно которой свободные переменные и зависимая переменная y связаны зависимостью

где .

Примем обозначения , вектор . Для удобства дальнейшего изложения обозначим выборку свободных переменных как .

Требуется найти такое значение вектора параметров , которое бы доставляло минимум норме вектора невязок

Алгоритм отыскания оптимальных параметров. Оптимальные параметры отыскиваются последовательно с помощью итерационного метода наименьших квадратов с использованием взвешивания элементов выборки. Приведенный ниже алгоритм основан на алгоритме Ньютона-Рафсона.

В начале работы алгоритма задаются параметры начального приближения: скаляр , где - среднее значение выборки зависимой переменной и значения для j=1,2,…,n.