Какие именно признаки брать – общий подход

Это называется feature selection и feature extraction. Простыми словами, процесс выглядит так.

1. Составляем список имеющихся признаков.

2. Добавляем в него различные функции от признаков (как упомянутый логарифм от веса), комбинации разных признаков (например, длина*ширина*высота), и т.п. Что именно комбинировать и какие преобразования использовать, должно подсказать знание задачи и здравый смысл. Этот процесс относится к feature extraction.

3. Задаём функцию ошибки, то есть определяем как будет оцениваться точность классификации. Например, это может быть отношение правильно распознанных примеров к их общему количеству.

4. Переходим на один уровень абстракции выше.

Представим эдакий чёрный ящик, внутри которого находится классификатор вместе с обучающей и тестирующей выборками. На входе ящика — двоичный вектор, указывающий, какие признаки должен использовать классификатор; на выходе — величина ошибки классификации (на тестовой выборке).

Таким образом, задача выбора признаков сводится к задаче оптимизации: нужно найти такой входной вектор, при котором выходное значение ящика (ошибка классификации) будет минимально. Можно, например, добавлять признаки по одному (начиная с тех, которые сильнее всего улучшают результат). Можно использовать что-то посерьёзнее, типа генетических алгоритмов.

Что делать если количество зерен в реальности (в обучающей выборке) относится к количеству плевел как 1/200? Портит ли это обучающую выборку? В общем случае, портит: если одних примеров гораздо меньше, чем других, существует риск, что классификатор «запомнит» примеры из обучающей выборки, и не сможет адекватно распознавать другие похожие примеры (Overfitting). К тому же, если используется простейшая функция ошибки (правильно распознанных / размер выборки), философски настроенный классификатор может всегда отвечать «плевел» — и в 99.5% случаев будет прав.

Пример задачи прогнозирования с предварительной