Алгоритм k -ближайших соседей имеет широкое применение. Например:
- Обнаружение мошенничества. Новые случаи мошенничества могут быть похожи на те, которые происходили когда-то в прошлом. Алгоритм KNN может распознать их для дальнейшего рассмотрения.
- Предсказание отклика клиентов. Можно определить отклик новых клиентов по данным из прошлого.
- Медицина. Алгоритм может классифицировать пациентов по разным показателям, основываясь на данных прошедших периодов.
- Прочие задачи, требующие классификацию.
В заключение отметим достоинства и недостатки алгоритма KNN.
Перечислим положительные особенности.
- Алгоритм устойчив к аномальным выбросам, так как вероятность попадания такой записи в число k -ближайших соседей мала. Если же это произошло, то влияние на голосование (особенно взвешенное) (при k>2) также, скорее всего, будет незначительным, и, следовательно, малым будет и влияние на итог классификации.
- Программная реализация алгоритма относительно проста.
- Результат работы алгоритма легко поддаётся интерпретации. Экспертам в различных областях вполне понятна логика работы алгоритма, основанная на нахождении схожих объектов.
- Возможность модификации алгоритма, путём использования наиболее подходящих функций сочетания и метрик позволяет подстроить алгоритм под конкретную задачу.
Алгоритм KNN обладает и рядом недостатков. Во-первых, набор данных, используемый для алгоритма, должен быть репрезентативным. Во-вторых, модель нельзя "отделить" от данных: для классификации нового примера нужно использовать все примеры. Эта особенность сильно ограничивает использование алгоритма
Сергей Царьков
Литература
- Berry, Michael J. A. “Data mining techniques: for marketing, sales, and customer relationship management “/ Michael J.A. Berry, Gordon Linoff. – 2nd ed.
- Larose, Daniel T. “Discovering knowledge in data: an introduction to data mining” / Daniel T. Larose
Прочитать в книжке Загорулько стр 167