double arrow

Инструментальные условные рефлексы (или обучение методом проб и ошибок)

Начало исследований инструментальных УР связано с именем Э. Торндайка (см. 2.4.1), хотя их анализ проводился и в лаборатории И. П. Павлова.

В лаборатории И. П. Павлова «классические» УР носили название услов­ных рефлексов 1-го рода, а инструментальные — условных рефлексов 2-го ро­да. В монографии Ю. Конорски (1969) на большом экспериментальном мате­риале дается анализ сходства и различия между ними.

В опытах с «проблемными ящиками» Торндайк наблюдал, как по­саженная в ящик кошка ищет выход, пытаясь открыть дверцу разны­ми способами (рис. 3.4А) (для этого нужно было нажать на задвижку или потянуть за пружину). Кошка сначала совершает много разных действий (проб), которые в своем большинстве бывают неверными (ошибки), пока случайно не откроет ящик. При повторении опытов она выходит из ящика все быстрее и быстрее. Идея эксперимента была подсказана Торндайку К. Ллойдом-Морганом, наблюдавшим, как его собака манипулирует с задвижкой калитки, чтобы «улизнуть» из дома (рис. 3.5). Такое обучение Торндайк и назвал «методом проб и ошибок». В дальнейшем обучение животного подобным действиям получило на­звание инструментальных (или оперантных) УР.

Торндайк первым предложил количественную оценку динамики обучения животного инструментальному навыку. Для этого он ввел так называемые «кривые научения», примеры которых приведены на рис. 3.4Б.

Между классическими и инструментальными УР существуют оп­ределенные различия.

Рис. 3.4. Инструментальные УР.

А — один из вариантов «проблемного ящика», предложенный Э. Торндайком для исследования способности животного к решению задачи методом «проб и ошибок»; Б — примеры кривых научения при использовании этого метода. По оси ординат — время, затраченное на решение задачи, по оси абсцисс — последовательные предъявления теста.

При классических УР временная связь между условным сигналом и безусловной реакцией возникает непроизвольно при действии бе­зусловного раздражителя (подкрепления).

При инструментальных УР подкрепление, например пища, дает­ся только после того, как животное совершает определенное действие, которое не имеет прямой связи с безусловным раздражителем.

Ф S*,*'} В классическом УР выделение слюны происходит в ответ на контакт

j I пищи с рецепторами полости рта, и эта реакция может стать услов-—15'- норефлекторной. В отличие от этого при выработке инструмен­тального УР пищевое подкрепление изначально никак не связано ни с протягиванием лапы, ни с побежкой в лабиринте. Однако мы мо­жем давать животному пищу сразу после того, как оно сделало такое движение, и вскоре животное будет его совершать, чтобы получить подкрепление.

К категории инструментальных УР относится формирование на­выка нажатия на рычаг (или клевания кнопки, как на рис. 3.6) для получения порции пищи. После работ Б.Скиннера этот УР стал ос­новным в исследованиях бихевиористов (анализ связей «стимул-реак­ция»). К инструментальным УР относится также обучение подопыт­ного животного находить путь к пище или избегать неприятных сти­мулов в лабиринте. Инструментальным УР является и реакция избегания навык переходить в тот отсек экспериментальной каме­ры, где отсутствует болевое подкрепление (рис. 3.7).

Включению тока предшествует включение УС — звука или света. Чтобы избежать болевого воздействия, животное перебегает в другую половину каме-

Рис. 3.5. Рисунок, сделанный по фотографии «исторического» эпизода. Собака К. Л. Моргана научилась открывать задвижку калитки, полу­чая тем самым возможность «обрести свободу». Эта ситуация считает­ся прототипом торндайковского «проблемного ящика».

Рис. 3.6. Камера Б. Скиннерадля обучения голубей.

В верхней части левой стенки камеры размещены 3 диска-«ключа». Они раз­личаются не только по положению, но и по цвету лампочки, которая загора­ется за каждым из них. В кормушку (ниже) подают подкрепление. Клевание ключа (или, например, каждое 5-е клевание) автоматически подает зерно в кормушку.

Рис. 3.7. Челночные камеры для исследования у лабораторных крыс и мышей реакции активного избегания. А — современная установка для изучения условной реакции активного избе­гания, которая обычно состоит из 4 челночных камер с автоматизированным управлением и выводом результатов на экран монитора; Б — отдельная чел­ночная камера.

ры По прошествии небольшого периода времени (как правило, его длину варьируют, чтобы не вырабатывать у животного УР на время) ток включают в той половине камеры, куда оно перед этим перебежало УР считается вы­полненным, если животное перебегает в безопасную половину камеры во время действия УС и до включения тока.

Обширные исследования, выполненные сторонниками идей би­хевиоризма, привели к появлению целого ряда новых терминов и по­нятий и созданию специфического языка для описания закономерно­стей процесса обучения, обнаруженных только благодаря применен­ным ими подходам. Многие термины сначала использовались как чисто технические — для объективного описания данных (знакомство с ними может помочь при чтении научных статей бихевиористов). К таким терминам, в частности, относятся:

• оперантное поведение — спонтанные действия, не вызванные каким-либо очевидным стимулом;

* реактивное поведение — всякое поведение, которое совершается в ответ на определенный стимул;

«режим подкрепления (reinforcement schedule): соотношение числа реак­ций (например, нажатий на рычаг) и вознаграждений (например, кусочков пищи; подробнее см. ниже);

» постоянный (или переменный) интервал (fixed or variable interval) — вознаграждение дается через определенные интервалы времени, в период которых животное может осуществлять двигательные реак­ции (эти интервалы могут быть постоянными или варьировать по длительности), но по истечении этого интервала подкрепляется только первая реакция;

«фиксированное (или переменное) соотношение (fixed ratio or variable ratio) — подкрепление дается животному только после того, как оно

произведет какое-то количество реакции (нажатии или клевании. Можно давать подкрепление только после определенного числа ре­акций (фиксированное соотношение) или это число может каким-то образом варьировать (переменное соотношение);

«смежность (contiguity) — этим термином обозначают постулируемое возникновение связей между стимулами и возникающими на их ос­нове реакциями, а также совпадение УС с реакцией животного или УС с подкреплением, которое необходимо для возникновения УР;

» ключ (cue) — обычно это либо рычаг, на который нажимает крыса, либо освещенный кружок, по которому наносит удар клювом голубь (этот термин, обычный для работ бихевиористов, не следует путать с термином «ключевой стимул», принятым в этологии для обозначе­ния видоспецифических стимулов, вызывающих инстинктивные ре­акции (см. 2.11).

На рис. 3.6 схематически изображена камера для выработки инст­рументальных УР у голубей. Скиннер считал, что любое поведение, относящееся к категории «оперантное», можно модифицировать, если при его выполнении давать животному подкрепление. Именно такой подход он предложил как эффективный способ анализа поведения. Если для выработки классических УР необходимы сочетания услов­ных сигналов и подкрепления, то при методике свободного оперантно-го поведения, предложенной Скиннером, экспериментатор сопровож­дает подкреплением выполнение животным только определенного, намеченного им действия.

Например, крысу можно обучить нажимать на рычаг, если сначала со­провождать подкреплением любые ее действия в той части камеры, где он находится. Постепенно крыса обучается держаться вблизи рычага, и тогда подкрепление дают только, если она касается рычага мордой или лапой (для этого иногда на рычаг даже кладут пищу) Через некоторое время подкрепле­ние дается только после выполнения четких движений — нажатий (одного или нескольких) лапой на рычаг.

Такое постепенное видоизменение поведения животного в ре­зультате вмешательства экспериментатора называется методом после­довательного приближения или формированием (shaping) поведения.

Деление условных рефлексов на классические и инструменталь­ные, удобное методически, не означает, что они имеют совершенно разную природу. В их основе лежат сходные нейрофизиологические механизмы, а любое «чисто» инструментальное действие животного всегда сопровождается реакцией, которая относится к классическим УР. И наоборот, в любом «чисто» классическом УР можно обнаружить Двигательный компонент, который по своим свойствам относится к инструментальным (Борукаев, 1982).

О связи классических и инструментальных УР свидетельствует также «самоформирование» условной реакции (auloshaping). Например, если голодного голубя поместить в камеру Скиннера и в течение 5 с осве­щать ключ для клевания с интервалом в 1 мин, а после прекращения

освещения давать порцию нищи, то голубь сначала не обращает вни­мания на ключ. Однако после нескольких таких сеансов формируется инструментальная реакция, и он быстро начинает клевать ключ не­зависимо от освещения. Постепенно голубь научается клевать ключ только при его освещении, т.е. реакция становится более точной — она самоформируется. В данном случае она очень близка к классичес­кому УР, поскольку голубь клюет ключ как бы вместо зерна, даже в отсутствие подкрепления.

С помощью метода «последовательного приближения» у животных удается сформировать не только клевание ключа при его освещении, но и самые разнообразные, сложные и иногда неожиданные навыки. В опытах Скиннера голуби «играли» в пинг-понг, а крысы могли под­тянуть к себе с помощью бечевки бильярдный шар, взять его в перед­ние лапы и засунуть в трубку, расположенную на 5 см выше пола клетки (описание экспериментов П. Эпштейна, посвященных форми­рованию сложных навыков у голубей, будет дано в гл. 4.8.2).

Метод последовательного приближения составляет основу дрес­сировки цирковых и служебных животных. Примером продуктивного использования принципов бихевиоризма, и в частности роли метода последовательного приближения в формировании поведения, является работа знаменитой американской дрессировщицы дельфинов и психо­лога К. Прайор(1995).

Тезис Скиннера о том, что любые движения, на которые способно животное данного вида, равновероятно можно использовать для инст­рументального научения, был достаточно обоснованно подвергнут со­мнению в работе его коллег — К. и М. Бреландов (Breland, Breland, 1961). Некоторые виды животных при обучении манипуляциям с предметами производят «заданные» экспериментатором действия только после вы­полнения некоторых врожденных (инстинктивных) действий либо со­всем не могут им научиться. Так, например, обучая енота нажимать на рычаг, Бреланды заметили, что нажатию предшествует видоспецифи-ческое движение лап — «полоскание», характерное для этого вида при добыче пищи из ручья (за что енота и называют «полоскун»). На основа­нии таких наблюдений возникло представление о предрасположеннос­ти к определенным видам обучения (подробнее см.: Зорина и др., 1999).

В Образование инструментальных УР по механизму «последова-

В тельного приближения» играет важную роль в организации пове­дения животных не только в эксперименте, но и в естественных В условиях.

Обучение по методу последовательного приближения может про­исходить самым неожиданным образом. Об этом, в частности, свиде­тельствует получившая широкую известность в начале XX века исто­рия «умного Ганса». Это был конь, который демонстрировал способ­ность «считать», «складывать», «извлекать корни», отвечать на вопросы

Рис. 3.8. Инструментальные условные рефлексы у дрессированной лоша­ди «умного Ганса». На фотографии видно, как ударами копыта по специальной доске Ганс сигнализировал «правильный» ответ (по Н. Н. Ладыгиной-Коте, 1914).

и т.п. (рис. 3.8). Столь «разумное» поведение объяснялось тем, что конь научился замечать малоуловимые движения дрессировщика, которые тот непроизвольно совершал, видя, что конь вот-вот даст правиль­ный ответ. Ориентируясь на эти условные сигналы, конь в нужный момент прекращал стучать копытом.

В начале XX века (1900—1904) барон В. фон Остен, убежденный в огром­ных умственных способностях лошадей, обучал нескольких из них различе­нию цветов, азбуке и «счету». Узнавание каждой буквы или цифры лошадь обозначала соответствующим числом ударов копыта. Друг фон Остена худож­ник Редлих обучил таким же образом свою собаку. Наиболее способным уче­ником оказался орловский рысак Ганс, который производил достаточно слож­ные арифметические подсчеты, отвечал на разнообразные вопросы, а иногда высказывался по собственной инициативе. Так, супруги Н. Н. и А. Ф. Коте, специально приехавшие для знакомства с ним в 1913 году, рассказывали, что после нескольких относительно коротких ответов на вопросы Ганс заявил:

«В поле я встретил милую госпожу Краль, которая меня кормила».

Поведение его было столь впечатляющим, что вводило в заблуждение не только публику, но даже членов специальных комиссий, включая Н. Н. Лады-гину-Котс. Предполагали, что хозяин подает коню некие скрытые сигналы (как дрессировщик — цирковым животным), однако его обследовали 13 экспертов (комиссия психолога К. Штумпфа) и не обнаружили никакого обмана. Они засвидетельствовали, что Ганс действительно «считает» и ника­ких скрытых сигналов ему не подают. И лишь много позднее наблюдатели постепенно заметили, что Ганс отвечает только на те вопросы, ответ на которые знает сам экспериментатор. Специальный анализ, проведенный пси­хологом О. Пфунгстом. показал, что животное реагирует на мельчайшие

непроизвольные (идеомоторные) движения экспериментатора, например цд отклонения корпуса на 2 мм, микродвижения бровей, мимику и т.п. Эта не­вольная подача сигналов происходила, по-видимому, из-за эмоционального напряжения человека, по мере того как число ударов копытом приближалось к искомому. Даже картонный щит, которым пробовал отгородиться от Ганса экспериментатор, не помогал: животное все равно улавливало какие-то толь­ко ему понятные знаки для определения правильного ответа.

Для проверки своего предположения Пфунгст специально научил Ганса реагировать на микродвижения, которые он совершал уже сознательно, и продемонстрировал комиссии механизм и природу «математических способ­ностей» этой лошади.

История «умного Ганса» оставила заметный след в развитии науки о поведении животных:

* она показала, сколь сложное поведение могло быть результа­том обучения методом проб и ошибок;

* продемонстрировала справедливость «канона Ллойда Моргана» (см. 2.3) и актуальность его применения, поскольку в основе поведения этой «мыслящей лошади» лежали чисто условнореф-лекторные, а не связанные с мышлением механизмы;

* впервые привлекла внимание к проблеме чистоты эксперимента с точки зрения возможности неосознанного влияния экспери­ментатора на его результаты,

* заставила по-новому взглянуть на возможности восприятия жи­вотных: способность уловить едва заметные движения человека свидетельствовала об их большой наблюдательности и способ­ности концентрировать внимание.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: