Кросс - проверка

Кросс - проверка - широко признанный метод получения оценок неизвестных параметров модели. В данном разделе обсуждается использование этой техники для оценки параметра К.

Основная идея метода заключается в разделении выборки данных на v "складок" (случайным образом выделенные изолированные подвыборки или сегменты). По фиксированному значению К строится К - БС модель для получения предсказаний на v - ом сегменте (при этом остальные сегменты используются как примеры) и оценки ошибки. Для регрессионных задач наиболее часто в качестве оценки ошибки выступает сумма квадратов, а для классификационных задач удобней рассматривать точность (процент корректно классифицированных наблюдений). Далее процесс последовательно повторяется для всех возможных вариантов выбора v. По исчерпании v "складок" (циклов), вычисленные ошибки усредняются и используются в качестве меры устойчивости модели (т.е. меры качества предсказания в точках запроса). Вышеописанные действия повторяются для различных К, и значение соответсвующее наименьшей ошибке (или наибольшей классификационной точности) принимается как оптимальное (оптимальное в смысле метода кросс - проверки). Отметим, что кросс - проверка вычислительно емкая процедура и следует быть готовым предоставить время для работы алгоритма особенно, если объем образцовой выборки велик. Альтернативный путь - самостоятельно задать значение параметра К. Этот способ приемлем, если вы располагаете обоснованными предположениями относительно возможного значения параметра (например, предыдущий К - БС анализ проводился над сходными данными и для них было подобрано оптимальное значение).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: