Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x 1, x 2,..., xn, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.
На практике логистическая регрессия используется для решения задач классификации с линейно-разделяемыми классами.
Задана выборка – множество пар , в которых описание -го элемента , и значения зависимой переменной .
Принята модель логистической регрессии, согласно которой свободные переменные и зависимая переменная y связаны зависимостью
где .
Примем обозначения , вектор . Для удобства дальнейшего изложения обозначим выборку свободных переменных как .
|
|
Требуется найти такое значение вектора параметров , которое бы доставляло минимум норме вектора невязок
Алгоритм отыскания оптимальных параметров. Оптимальные параметры отыскиваются последовательно с помощью итерационного метода наименьших квадратов с использованием взвешивания элементов выборки. Приведенный ниже алгоритм основан на алгоритме Ньютона-Рафсона.
В начале работы алгоритма задаются параметры начального приближения: скаляр , где - среднее значение выборки зависимой переменной и значения для j=1,2,…,n.
Далее итеративно повторяется следующая процедура:
· с использованием вектора параметров вычисляется переменная ;
- вычисляется восстановленное значение выборки зависимой переменной ;
- вычисляется вектор значений зависимой переменной для текущего шага линейной регрессии , где - вектор весов значений зависимой переменной;
- решается задача наименьших квадратов с взвешиванием элементов выборки. При этом больший вес приобретают те элементы, которые имеют большую невязку,
,
где - диагональная матрица весов.
Процедура останавливается после того, как норма разности векторов параметров на каждой итерации не будет превышать заданную константу: .