Инструментальное, или оперантное, обусловливание

Основывается на сформулированном в начале XX века американским исследователем процессов научения Э. Торндайком (1998) «законе эффекта».

Реактивные формы поведения возникают в результате таких событий, при которых организм в основном пассив­но испытывает внешние воздействия на соответствующие врожденные структуры, отвечающие за соматовегетативно-инстинктивный (по В. В. Ковалеву, 1979) уровень нервно-психического реагирования. По мере созревания произвольной активности накопление поведенческого репертуара человека все более определяется результатами взаимодействия со средой. Такие вновь приобретаемые формы поведения получили название оперантных (от лат. operatio - действие), поскольку в этом случае первично действие, производимое в отношении окружающей среды. Будет ли это действие повторяться или, наоборот, избегаться - это зависит от вызванных им последствий, их желательности или нежелательности для организма. И ре­активные, и оперантные формы поведения подчиняются одним и тем же закономерностям; в общем случае обусловливание определяется ассоциацией между двумя стимулами или между поведением и его результатом.

Э. Торндайк (1898) открыл тип научения, названный им «методом проб и ошибок»: встретившись с каким-либо препятствием, индивидуум совершает попытки преодо­леть его и, постепенно отказываясь от неэффективных действий, находит решение задачи. В своих опытах Э. Торндайка использовал так называемые проблемные клетки, в которые он помещал голодных кошек. Клетки открывались лишь в случае, если животное, пытающееся выйти к лежащей снаружи приманке, найдет соответствующий способ - случайный (потянет за веревку или при­поднимет крючок) либо оптимальный (нажмет на педаль, соединенную с веревкой, приподнимающей запорный крючок). Проанализировав данные о числе попыток, не­обходимых для нахождения оптимального способа откры­вания клетки, и о влиянии на этот процесс предшествую­щих, «нечаянных» случаев освобождения, исследователь сформулировал закон эффекта.- Он гласит, что, если ка­кое-то действие приводит к желательным результатам, вероятность его повторения возрастает, а если к нежела­тельным - то снижается. Если быть еще точнее, связь между действием и его результатом для индивидуума тем сильнее, чем большее удовлетворение доставляет этот ре­зультат. Нежелательный или безразличный результат эту связь ослабляет.

Следует констатировать, что научение методом проб и ошибок само по себе не очень эффективно и что одним случайным «изобретением» новых форм поведения труд­но объяснить быстрое приобретение новых навыков людь­ми и домашними животными. Наряду с данным способом выработки навыков, существовавшим на протяжении миллионов лет, в эволюции человека несомненно складыва­лись и другие, более совершенные способы формирования и передачи новых типов поведения.

В 40-е годы XX века американский психолог Б. Ф. Скиннер развил концепцию Э. Торндайка, отказавшись от таких необъективных понятий, как удовлетворение и неудовлет­ворение, и сформулировав принцип подкрепления: то или иное поведение чаще повторяется, если приводит к опре­деленным последствиям - к ситуациям, играющим роль подкрепления. Таким образом, в теории Скиннера под­крепление - это событие, которое повышает вероят­ность повторения в будущем поведенческой реакции. Б. Ф. Скиннер разработал способ формирования слож­ных форм поведения путем последовательных прибли­жений, который составил основу концепции и метода оперантного обусловливания.

Суть метода «оперантного обусловливания» (Skinner В. Е, 1984) заключается в создании связи между поведением и его результатом при помощи повторяющихся «подкреп­лений», т. е. предлагаемых либо устраняемых позитивных и негативных последствий. При этом весь путь от исход­ной реакции (еще до начала обучения) до конечной пове­денческой модели, разбивается на несколько этапов, каж­дый из которых последовательно и систематически под­крепляется.

В экспериментах Б. Ф. Скиннера голубь, сидящий в клетке, награждался зерном вначале каждый раз, когда оказывался в нужной ее половине, затем только тогда, ког­да, находясь на этой половине клетки, поворачивал голо­ву в нужном направлении, далее только в том случае, если эти два условия сопровождались направлением его клю­ва в сторону пластмассового кружка, расположенного на стенке. Следующий этап заключался в подкреплении слу­чаев касания кружка клювом, и, наконец, подкреплялась лишь конечная цель обучения - удар клювом по кружку.

Принципиально важно приступать к очередному этапу обучения лишь при сформулированной поведенческой реакции, выработке которой был посвящен предыдущий этап. Такой способ моделирования сложных форм пове­дения широко применяется при дрессировке животных.

Аналогичный путь освоения человеческого лексикона прослеживается у ребенка. Первые членораздельные зву­ки вызывают бурный восторг окружающих, стимулируя их повторение. Затем энтузиазм взрослых остывает до тех пор, пока в лепете ребенка не появятся сочетания звуков, напоминающие слово «мама» и т. д. Такое избирательное поощрение со стороны членов семьи заставляет младенца отбрасывать неправильные реакции, за которые он не по­лучает социального подкрепления, и сохранять те, которые близки к ожидаемому результату. Аналогичным образом, игнорирование ребенка в тот момент, когда он стремится привлечь к себе внимание капризами, нытьем, «истерика­ми», и позитивное общение с ним при демонстрации со­циально одобряемых поступков обеспечивает дифференцированный отбор в его поведенческий репертуар более зрелых шаблонов.

Различными сторонами процесса подкрепления яв­ляются рассмотренные выше механизмы угасания, дифференцировки и генерализации или иррадиации (по И. П; Павлову).

Инструментальные (оперантные) условные рефлексы отличаются от классических (павловских) активностью отбора поведенческого стереотипа, большей естественно­стью. Классический условный рефлекс формирует «экспериментатор» (дрессировщик, родитель, воспитатель, терапевт), обеспечивающий повторное попарное предъявление нейтрального стимула и специфического стимула врожденной реакции. В экспериментах Скиннера животное само (под влиянием дискриминантного стимула, сигнализирующего о возможности получить награду или наказание) осуществляет отбор нужного поведенческого эталона из своего репертуара, ориентируясь на результирующий эффект. Стимул определяется самой «жизнью» (реалиями естественной среды обитания, законами общества, принципами коллектива, традициями семьи), отвечающей на активное поведение субъекта удовлетворением или фрустрацией его потребностей (как врожденных, так и сформировавшихся после рождения).

По мнению Б. Ф. Скиннера и других бихевиористов, именно таким образом происходит выработка большин­ства поведенческих реакций у человека. Подобная абсолютизация роли внешней мотивации, создаваемой подкреплением, и игнорирование значения внутренней мотивации встречает справедливую критику со стороны представителей как когнитивной, так и гуманистической психологии (Годфруа Ж., 1992). При идентификации контекста предшествующего (дискриминантного) стимула (что является, по сути, когнитивным актом) задействуются мозговые структуры более высокого уровня, чем при срабатывании условного рефлекса. Уровень должен обеспечивать организму возможность использовать для обуче­ния собственный опыт.

В 1960-е годы парадигма оперантного обусловливания в форме «планов оперантного подкрепления» широко применялась для коррекции нарушенного поведения госпитализированных детей, а также в школах в форме «программированных уроков».

Примером сочетания классического условного реф­лекса и оперантного научения являются эксперименты по исследованию поведения избегания (Mourer О. Н., 19б5; Miller H.E., 1963, цит. по А.П. Федорову, 2002). После того как вслед за условным сигналом включался ток, животное в результате хаотических прыжков по клетке случайно обнаруживало спасительную площадку, на которую приучалось запрыгивать, не дожидаясь начала болевой стимуляции. Поведение избегания стойко осуществлялось всякий раз после включения условного сигнала, и в последующих опытах, несмотря на то, что ток больше не включали, подобная реакция стала бессмысленной. Чтобы животное об этом «узнало» и поведение избегания перестало подкреплять самое себя, экспериментаторы вынуждены были внести изменения в процедуру опыта: действие условного раздражителя (звукового сигнала) продолжалось и после начала демонстрации реакции избегания, т. е. условный сигнал опасности «обесценивался» в реально безопасной обстановке. Другой способ быстрого погашения реакции избегания - удаление от животного «площадки безопасности». Это обусловливало форсированное тестирование реальности, поскольку за время, явно достаточное для возникновения болевого «подтверждения» целесообразности стереотипного поведения, подкрепления не наступало.

Описанные механизмы погашения зафиксировавшей­ся реакции избегания используются при лечении фобий и навязчивых ритуалов, в частности в форме представления устрашающих объектов в субъективно комфортной ситуации и лишения возможности реализовать избегаю­щее поведение в пугающей, но реально безопасной обстановке (методика «наводнения»).

Третий способ торможения реакции избегания — ими­тирующее моделирование, которое осуществляется с помощью животного, не подвергавшегося воздействию элек­трического тока. Новое животное запускают в тот же ящик, и оно демонстрирует спокойное «реалистическое» пове­дение. Терапия и профилактика неофобии (страха нового), типичной для аутистов и детей младшего возраста, включает не только привыкание к незнакомой и потому пугающей обстановке, но и наблюдение за тем, как другие дети ведут себя в этих условиях. Адаптация к новому коллективу происходит успешнее, когда у человека есть воз­можность «присмотреться» к нему.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: