Одной из проблем, связанных с решением задач классификации рассматриваемым методом, является то обстоятельство, что не всегда можно легко найти линейную границу между двумя классами. В таких случаях один из вариантов - увеличение размерности, т.е. перенос данных из плоскости в трехмерное пространство, где возможно построить такую плоскость, которая идеально разделит множество образцов на два класса. Опорными векторами в этом случае будут служить объекты из обоих классов, являющиеся экстремальными.
Если классы линейно неразделимы, поступают так: все элементы обучающей выборки вкладываются в пространство Х более высокой размерности с помощью специального отображения . При этом выбирается так, чтобы в новом пространстве Х выборка была линейно разделима. Классифицирующая функция F принимает вид .
Выражение называется ядром классификации. С математической точки зрения ядром может служить любая положительно определенная симметричная функция 2-х переменных. Положительная определенность нужна, чтобы соответствующая функция Лагранжа в задаче оптимизации была ограничена снизу, то есть задача оптимизации корректно определена.
|
|
Чаще всего на практике используют следующие ядра.
1. Полиномиальное: .
2. Радиальная базисная функция .
3. Сигмоид .
С одной стороны ядра – одно из самых из самых красивых и плодотворных изобретений в машинном обучении, а с другой стороны до сих пор не найдено эффективного общего подхода к их подбору. Алгоритм классификации в общем виде
,
где - опорные объекты (пусть это первые после перенумерации).
Этот алгоритм можно рассматривать как двухслойную нейронную сеть, имеющую входных нейронов, нейронов в скрытом слое,
- это вес, выражающий степень важности ядра.
Как и любой другой метод, метод SVM имеет свои сильные и слабые стороны, которые следует учитывать при выборе данного метода.
Недостаток метода состоит в том, что для классификации используется не все множество образцов, а лишь их небольшая часть, которая находится на границах.
Достоинство метода состоит в том, что для классификации методом опорных векторов, в отличие от большинства других методов, достаточно небольшого набора данных. При правильной работе модели, построенной на тестовом множестве, вполне возможно применение данного метода на реальных данных.
Метод опорных векторов позволяет:
· получить функцию классификации с минимальной верхней оценкой ожидаемого риска (уровня ошибки классификации);
· использовать линейный классификатор для работы с нелинейно разделяемыми данными, сочетая простоту с эффективностью.
|
|