Технические подробности

Метод STATISTICA К - Ближайщих соседей (К - БС) существенно использует память. Модель определяется набором объектов, называемых примераим (или экземплярами), для которых известны выходы (т.е каждый экземпляр помечен). Каждый пример состоит из набора независимых значений, помеченных набором зависимых выходов. Независсимые и зависимые переменные могут быть как непрерывными, так и категориальными. Для непрерывных зависимых переменных задача рассматривается как регрессионная, иначе считается классификационной. Таким образом, метод STATISTICA К - БС применим для решения задач как регрессионного, так и классификационного типа.

Имея новый экземпляр зависимых значений, мы хотим оценить выход, используя примеры для алгоритма К - БС. STATISTICA К - БС разрешает этот вопрос, отыскивая К наболее близко расположенных к точке запроса примеров (поэтому метод и получил такое название). Предсказание в регрессионной задаче получается усреднением выходов К ближайших соседей, а решение классификационной задачи основано на принципе "принято большинством голосов".

Выбор значения параметра К - ключевое место в построении модели К - БС. Действительно, параметр К является одним из наиболее значимых факторов модели, влияющих на качество прогноза. Один из содержательных подходов к оценке необходимого числа ближайших соседей - воспринимать К как параметр сглаживания. Для любой задачи выбор малого значения параметра К приведет к сильному разбросу значений прогноза. Напротив, большое значение параметра К может повлечь сильную смещенность модели. Следовательно, по величине К должен быть достаточно большим, чтобы минимизировать вероятность ошибочной классификации, и достаточно малым (в соответсвии с объемом образцовой выборки), чтобы К соседей располагались достаточно близко к точке запроса. Таким образом, для параметра К, как и для любого сглаживающего параметра, необходимо найти оптимальное значение, при котором бы достигался компромисс между смещенностью и силой размаха модели. STATISTICA К - БС оценивает параметр К, используя алгоритм кросс - проверки (Bishop, 1995).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: