Логистическая регрессия

Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x 1, x 2,..., xn, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

На практике логистическая регрессия используется для решения задач классификации с линейно-разделяемыми классами.

Задана выборка – множество пар , в которых описание -го элемента , и значения зависимой переменной .

Принята модель логистической регрессии, согласно которой свободные переменные и зависимая переменная y связаны зависимостью

где .

Примем обозначения , вектор . Для удобства дальнейшего изложения обозначим выборку свободных переменных как .

Требуется найти такое значение вектора параметров , которое бы доставляло минимум норме вектора невязок

Алгоритм отыскания оптимальных параметров. Оптимальные параметры отыскиваются последовательно с помощью итерационного метода наименьших квадратов с использованием взвешивания элементов выборки. Приведенный ниже алгоритм основан на алгоритме Ньютона-Рафсона.

В начале работы алгоритма задаются параметры начального приближения: скаляр , где - среднее значение выборки зависимой переменной и значения для j=1,2,…,n.

Далее итеративно повторяется следующая процедура:

· с использованием вектора параметров вычисляется переменная ;

  • вычисляется восстановленное значение выборки зависимой переменной ;
  • вычисляется вектор значений зависимой переменной для текущего шага линейной регрессии , где - вектор весов значений зависимой переменной;
  • решается задача наименьших квадратов с взвешиванием элементов выборки. При этом больший вес приобретают те элементы, которые имеют большую невязку,

,

где - диагональная матрица весов.

Процедура останавливается после того, как норма разности векторов параметров на каждой итерации не будет превышать заданную константу: .


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: