При фиксированном объёме статистических данных качество аппроксимации стохастических зависимостей с помощью непараметрической оценки регрессии существенно зависит от выбранных коэффициентов размытости ядерных функций.
Определение конкретных значений коэффициентов размытости
обычно осуществляется из условия минимума эмпирических критериев:
средняя ошибка аппроксимации
;
среднеквадратическая ошибка аппроксимации
; (3.12)
средняя относительная ошибка аппроксимации
; (3.13)
среднеквадратическая относительная ошибка аппроксимации
.
В преимущество критерия (3.13) состоит в том, что умножив его величину на 100%, получим ошибку аппроксимации в процентном соотношении с диапазоном изменения
. Иначе говоря, значение критерия не зависит от единиц измерения
. Основной его недостаток заключается в том, что если
может принимать нулевые значения либо близкие к ним возникает неоднозначность и значения критерия могут значительно превышать 100%.
В отличие от (3.13) критерий (3.12) может быть использован в любых ситуациях, но его значения зависят от единиц измерения
, что затрудняет количественную оценку ошибки аппроксимации.
Метод скользящего экзамена. Выбор оптимального коэффициента размытости осуществляется по элементам обучающей выборки. Идея метода заключается в том, что последовательно каждая
-я точка исходной обучающей выборки принимается в качестве контрольной ситуации с последующим исключением её из процесса обучения. Рассмотрим данный процесс на примере критерия (3.12)
. (3.14)
Условие
позволяет исключить
-ю контрольную точку из процесса обучения. При этом оптимальный набор коэффициентов размытости
будет соответствовать минимальному значению критерия 
.
Для упрощения задачи выбора оптимального коэффициента размытости можно воспользоваться методикой представленной в пункте 2.2.2.2., что позволяет свести задачу оптимизации к нахождению всего лишь одного параметра
.
Рассчитаем по обучающей выборки оценки среднеквадратического отклонения
,
которые характеризуют диапазон изменения признаков.
Сопоставим каждому коэффициенту размытости
произведение
, где неопределённый коэффициент
будет общим для каждого признака. В результате получим
.
При этом среднеквадратический критерий (3.14) будет иметь вид
. (3.15)
Зависимость эмпирического критерия
от коэффициента размытости представлена на рис. 3.4.

Рис. 3.4. Зависимость ошибки аппроксимации (3.12) от величины коэффициента размытости для одномерного случая (
- скаляр).
Кривая 1 соответствует объёму обучающей выборки
,
кривая 2 -
, кривая 3 -
.
Метод деления выборки на контрольную и обучающую. Идея метода состоит в декомпозиции исходной обучающей выборки на контрольную
и обучающую
выборки

где
- объём обучающей выборки, а
- контрольной.
При этом среднеквадратический критерий (3.12) будет иметь вид
.
Данный критерий характеризует среднеквадратическое расхождение между строящейся по выборке
непараметрической регрессией и элементами контрольной выборки
.
Рассматриваемый метод поиска оптимального коэффициента размытости наиболее удобно применять при достаточно больших объёмах обучающей выборки (более 200 наблюдений на каждый признак
), когда исследователь может пожертвовать частью исходной выборки
и сформировать контрольную
.
Метод случайного поиска коэффициентов размытости. Данный метод основан на случайном выборе оптимального вектора
из множества альтернатив, которое генерируется с использованием датчиков случайных величин.
Запишем непараметрическую оценку регрессии (3.5) в виде
. (3.16)
Из вычислительных экспериментов установлено, что коэффициенты
,
в выражении (3.16) принадлежит интервалу
.
Для генерации множества векторов
воспользуемся датчиками случайных величин с равномерными законами распределения на интервале 
,
где
- случайная величина с равномерным законом распределения,
- величина близкая к нулю (например
), а
можно принять равным трём. В результате данной операции получим выборку
, которую при
можно отобразить на рис. 3.5.

Рис. 3.5. Выборка векторов
при
.
Последовательно подставляя полученные вектора в среднеквадратический критерий
,
получим выборку
и выберем тот вектор
, при котором
будет минимальна. В окрестности
генерируются новые вектора
и находится наилучший на данном этапе набор параметров
. Описанный процесс продолжается до тех пор пока изменения критерия будут незначительными.
Рандомизированный метод оптимизации непараметрической оценки регрессии. Существующий парадокс традиционных методов идентификации стохастических моделей состоит в сопоставлении случайной выборке наблюдений
переменных изучаемого объекта конкретного набора параметров модели оптимальных в смысле минимума эмпирической ошибкиаппроксимации. Рассмотрим принципиально новый рандомизированный подход оптимизации непараметрических алгоритмов, основанный на процедуре случайного выбора коэффициентов размытости ядерных функций из некоторой генеральной совокупности с определённым законом распределения. В этом случае непараметрическая оценка регрессии принимает вид
,
где коэффициент размытости
является случайной величиной с плотностью вероятности
и соответствует наблюдению
.
Из анализа асимптотических свойств непараметрической регрессии следует, что нижняя граница области изменения коэффициента размытости с ростом объёма выборки
стремится к нулю. Отсюда возникает идея оптимизировать непараметрическую оценку регрессии по виду закона распределения
коэффициентов размытости и правой границе
. Для генерации коэффициентов размытости
воспользуемся датчиками случайных величин известных законов распределения, например (рис. 3.6):
Нормальный закон
.
Равномерный закон 
Показательный 

Рис. 3.6. Графики плотностей вероятности в диапазоне
. Кривая 1 соответствует нормальному закону распределения при
,
; кривая 2 – равномерному закону при
,
; кривая 3 и 4 – показательным законам для
,
при
.
Воспользуемся результатами раздела 2.5. и сформируем датчики случайных величин введённых законов распределения:
- нормальный закон
, где параметр распределения
;
- равномерный закон распределения
на интервале
;
- показательный закон распределения
на интервале
.
Здесь
случайная величина с равномерным законом распределения.
При использовании датчика случайных значений коэффициентов размытости с нормальным законом распределения задача оптимизации непараметрической оценки регрессии сводится к нахождению оптимальных значений математического ожидания коэффициента размытости
и его среднеквадратического отклонения
. Для датчика с равномерным законом необходимо определить оптимальную длину интервала
, (
и
) и его центр, а при использовании датчика с показательным законом необходимо эффективно оценить правую границу
и наилучшую степень
.
При использовании датчика случайных чисел, например, с показательным законом распределения при
непараметрическая оценка регрессии имеет вид
, (3.17)
где оптимальный набор параметров
определяется из эмпирической оценки среднеквадратического отклонения
.
Пример применения непараметрической оценки регрессии при восстановлении стохастической зависимости. Для иллюстрации эффективности непараметрической оценки регрессии (3.4) в задачах восстановления стохастических зависимостей (3.1) проведён вычислительный эксперимент с использованием функции
. (3.18)
Методика формирования исходных данных:
1. Случайная величина
генерировалась в диапазоне
с равномерным законом распределения.
2. Значения функции
получались путём подстановки
в полином (3.18)
.
3. Полученная выборка
зашумлялась, накладывая на значения восстанавливаемой функции аддитивную относительную помеху
,
где
- уровень шума,
- случайная величина с равномерным законом распределения.
Используя непараметрическую оценку регрессии (3.4) и метод скользящего экзамена при её оптимизации по данным
восстанавливалась зависимость
рис. 3.7.

Рис. 3.7. Иллюстрация восстановления стохастической зависимости (3.1) с помощью непараметрической регрессии(3.4) при
,
.






