Для предобработки количественных величин чаще всего применяют линейный сдвиг интервала значения признака, например, в интервал [-1,1]. Формула пересчета значения признака x для i-го примера выборки в интервал [a,b] такова:
(3.1)
где хmax, хmin- минимальное и максимальное выборочные значения признака.
При отсутствии жестких ограничений на диапазон значений предобработанного признака может быть выполнено масштабирование, дающее нулевое среднее и единичную дисперсию предобработанной величине, по формуле:
(3.2)
где исходное выборочное среднее и среднее квадратичное отклонение.
Получение нулевых средних для входных сигналов сети ускоряет градиентное обучение, поскольку снижает отношение максимального и минимального ненулевого собственных чисел матрицы вторых производных целевой функции по параметрам сети.
Имеются и другие методы препроцессирования данных – линейная нормализация на (-1,+1) и нелинейное преобразование биполярным сигмоидом – гиперболическим тангенсом .
Иногда проводят и предварительную (перед линейным масштабированием) нелинейную предобработку например, логарифмирование. При одновременном же рассмотрении всего набора независимых признаков можно убрать линейные корреляции между признаками, что также положительно влияет на скорость обучения.