Свойство обобщения

При описании процедуры обучения нейронных сетей неявно использовалось предположение, что обучающее, контрольное и тестовое множества являются представительными для решаемой задачи. Обычно в качестве обучающих берутся данные, испытанные на ряде примеров. Если обстоятельства изменились, то закономерности, имевшие место
в прошлом, могут больше не действовать.

Кроме того, нейронная сеть может обучаться только на тех данных, которыми она располагает. Предположим, что известно обучающее множество для системы стабилизации самолета при полете в спокойной атмосфере, а требуется спроектировать систему стабилизации на основе нейронной сети для условий полета при сильных возмущениях. Тогда едва ли можно ожидать от сети правильного решения в совершенно новой для нее ситуации.

Классическим примером непредставительной модели нейронной сети является следующая ситуация. При проектировании системы машинного зрения, предназначенной для автоматического распознавания целей, сеть обучалась на 100 картинках, содержащих изображения танков, и на 100 других картинках, где танков не было. После обучения сети был достигнут стопроцентно "правильный" результат. Но когда на вход сети были поданы новые данные, она безнадежно провалилась. В чем же была причина? Выяснилось, что фотографии с танками были сделаны в пасмурный, дождливый день, а фотографии без танков – в солнечный день. Сеть научилась улавливать разницу в общей освещенности. Чтобы сеть могла результативно работать, ее следовало обучать на данных, где бы присутствовали все погодные условия и типы освещения, при которых сеть предполагается использовать, и это не говоря еще о рельефе местности, угле и дистанции съемки и т. д. [1].

Коль скоро сеть минимизирует общую погрешность, большое значение приобретают пропорции, в которых представлены данные различных типов. Сеть, обученная на 900 "хороших" и 100 "плохих" наблюдениях, будет искажать результат в пользу хороших наблюдений, поскольку это позволит алгоритму уменьшить общую погрешность. Если
в реальной ситуации "хорошие" и "плохие" объекты представлены в другой пропорции, то результаты, выдаваемые сетью, могут оказаться неверными. Примером этого может быть задача выявления заболеваний. Пусть, например, при обычных обследованиях в среднем 90 % людей оказываются здоровыми и сеть, таким образом, обучается на данных, в которых пропорция здоровые/больные равна 90/10. Затем эта же сеть применяется для диагностики пациентов с определенными жалобами, среди которых соотношение здоровые/больные уже 50/50. В этом случае сеть будет ставить диагноз чересчур осторожно
и не будет распознавать заболевание у некоторых больных. Если же, наоборот, сеть обучить на данных "с жалобами", а затем протестировать на "обычных" данных, то она будет выдавать повышенное число неправильных диагнозов о наличии заболевания. В таких ситуациях обучающие данные нужно скорректировать так, чтобы были учтены различия
в распределении данных (например, можно повторить редкие наблюдения или удалить часто встречающиеся). Как правило, лучше всего постараться сделать так, чтобы наблюдения различных типов были представлены равномерно, и соответственно этому интерпретировать результаты, которые выдает сеть.

Способность сети, обученной на некотором множестве данных, выдавать правильные результаты для достаточно широкого класса новых данных, в том числе и не представленных при обучении, называется свойством обобщения нейронной сети.

Другой подход к процедуре обучения сети можно сформулировать, если рассматривать ее как процедуру, обратную моделированию. В этом случае требуется подобрать такие значения весов и смещений, которые обеспечивали бы нужное соответствие между входами и желаемыми значениями на выходе. Такая процедура обучения носит название процедуры адаптации и достаточно широко применяется для настройки параметров нейронных сетей.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: