Обучение как форма поведения
Линдсей П., Норман Д.
Наша главная проблема —понять, как организм приобретает знания об окружающем мире. Но для этого необходимо знать кое-что об основных явлениях, связанных с обучением. В этом разделе мы рассмотрим эти явления с целью описать условия, влияющие на обучение. Впоследствии мы вновь вернемся к попытке объяснить процесс обучения через внутренние механизмы, которые превращают ситуацию в структуру памяти.
Вероятно, самое убедительное описание фактора, управляющего поведением, содержится в формулировке так называемого закона эффекта:
Действие, ведущее к желаемому результату, как правило, совершается повторно в сходных обстоятельствах.
Этот закон прост, но он указывает фундаментальное условие, лежащее в основе большей части приобретенных форм поведения. Впервые его ностулировал психолог Торндайк в 1898 г.; впоследствии этот закон интенсивно исследовался и много раз получал новые формулировки. Однако до сих пор его первоначальная форма представляется наиболее функциональным описанием условий, необходимых для обучения. Этот главный принцип приобретения знаний о зависимостях в окружающем мире — основа приспособительного поведения всех организмов. Он играет важнейшую роль в организации поведения человека в раннем детстве и остается доминирующим фактором на протяжении всей его дальнейшей жизни.
Зависимости между действиями и результатами. Рассмотрим совокупное поведение новорожденного ребенка и его родителей, когда все трое впервые начинают взаимодействовать друг с другом. История начинается с того, что ребенок проголодался. Он беспокойно ворочается, ему определенно чего-то не хватает, но действия его не имеют видимой цели. Случайно он начинает плакать, привлекая этим внимание одного из родителей, который и удовлетворяет его нужды. Таким образом, в результате плача ребенок получает пищу и утоляет голод. С получением пищи вступает в действие так называемый закон эффекта. Получение пищи — подкрепляющее событие, и такая поведенческая реакция, как плач, «как правило, повторяется снова в сходных обстоятельствах». Это общая схема инструментального обучения, поскольку реакции ребенка играют роль инструмента, изменяющего условия среды.
Подкрепление поведения. Появление подкрепляющего фактора — показывает двоякое влияние на поведение ребенка. Оно останавливает инструментальную реакцию — плач. Однако одновременно оно повышает вероятность того, что в будущем ребенок начнет плакать всякий раз, как почувствует голод.
Оперантный уровень. С самого начала вероятность того, что голод ведет к плачу, была относительно высока даже в отсутствие подкрепления. В этом состоит важный аспект инструментального обучения, поскольку форма поведения, которая сама по себе не встречается, не может быть и позволена. Первое подкрепление может произойти только после первого поведения инструментальной, или оперантной, реакции. Таким образом, начала процесса необходим некоторый, довольно высокий начальный уровень оперантной реакции. Возможно подкрепление и других реакций, помимо плача. Умная мать может выбрать в качестве сигнала голода любую из нескольких различных реакций ребенка — при условии, что эти реакции достаточно высокий начальный оперантный уровень.
Генерализация. Ребенок распространяет реакцию, оказавшуюся иной, на другие сходные ситуации. Весьма вероятно, что он начнет привыкать к плачу, не только испытывая чувство голода, но и при любом другом неприятном ощущении. Сначала вероятность того, что ребенок заплачет, тем выше, чем ближе к голоду испытываемое им неудобство. Этот плач в иных ситуациях, вероятно, также будет подкрепляться появлением родителей и устранением причин неудобства, а это в свою очередь приведет к тому, что ребенок впоследствии будет плакать еще чаще в случае иных неприятных ощущений. В конце концов, ребенок приучится плакать всякий раз, когда он пожелает привлечь к себе внимание, поскольку его плач неизменно подкрепляется появлением нежных, заботливых родителей. Фактически чрезмерное внимание родителей может привести к тому, что ребенок будет непрерывно плакать, требуя внимания.
В одном из наиболее популярных руководств по воспитанию ребенка - мы имеем в виду книгу «Ребенок и уход за ним» знаменитого доктора Спока (1957) — эта тема излагается следующим образом:
“Если родители не могут положить конец этой вредной привычке то ребенок научится просыпаться уже не один, а несколько раз за ночь и бодрствовать все дольше и дольше. Он потребует, чтобы мать не только была рядом, но и брала его на руки, и, как только она попытается положить его обратно в кровать, начнет отчаянно плакать. Я слышал о случаях, когда родителям приходилось носить ребенка на руках по 3—4 часа каждую ночь”.
Угашение. Выведенные из терпения родители могут попытаться угасить плач как форму поведения, отказываясь от его подкрепления, иначе ребенок будет проводить в слезах большую часть суток. Как это сделать? Обратимся вновь к доктору Споку:
«В большинстве случаев помочь делу нетрудно. Ребенок должен прочно усвоить, что криком среди ночи он ничего не добьется. Пусть он плачет — не подходите совсем. В первую ночь он может проплакать 20—30 минут (хотя вам это время покажется вечностью), в следующую ночь он проплачет минут 10, а на третью, возможно, вообще не проснется».
Спок предупреждает родителей, что выдержать такой режим нелегко, особенно если ребенок приходит при этом в неистовство и его начинает рвать. однако мать должна «скрепить сердце», безусловно настоять на своем и не подходить к ребенку. Ниже мы еще вернемся к этому вопросу.
Различение. Ребенок, который получает подкрепление, если оп плачет по какому-либо действительно уважительному поводу, но плач которого угашается в неуважительных случаях, научается различать условия, ведущие к получению подкрепления, и условия, не ведущие к нему. Единственное различие, имеющее место в данном случае, лежит во внешних условиях. Таким образом, в идеале ребенок должен усваивать различия между своими ощущениями, между голодом и физическим дискомфортом, с одной стороны, и чувством комфорта — с другой. Когда он в состоянии направлять свое поведение в зависимости от этих стимулов, мы говорим, что поведение ребенка поставлено под стимульный контроль.
Схемы подкрепления. Ребенок может реагировать на схему, в соответствии с которой он получает подкрепление. Родители, не зная, означает ли его плач голод или другое мучительное состояние, вполне могут изобрести простое правило: если ребенку только что предоставили все, что ему необходимо (накормили, сменили пеленки, поиграли с ним, укрыли),— не обращать внимания ни на какой плач в течение 30 минут, но по истечении этого срока — подойти к нему при первом же плаче.
Приняв такое правило, мы устанавливаем определенную схему подкрепления. В данном случае подкрепление дается, когда ребенок впервые заплачет по истечении 30 минут после получения предыдущего подкрепления. Это схема подкрепления с фиксированным (30-минутным) интервалом (ФИ-30).
Хотя цель матери состоит в том, чтобы установить стимульный контроль, при котором ребенок плачет только от голода, однако сам ребенок, вероятно, просто приспосабливается к схеме, начиная плакать каждый раз через полчаса после получения подкрепления, последовавшего за предшествующим плачем. Родителей такой оборот, разумеется, не устраивает.
Возможны и другие схемы. Так, бывает, что мать вносит в упомянутое правило вариации, выжидая когда по 10 минут, а когда и по 50. Если при этом средняя задержка составляет по-прежнему 30 минут, то перед нами 30-минутная схема с переменным интервалом. (ИИ-30).
Если мать просто считает приступы плача, подходя к ребенку, скажем, после каждого 5-го, мы имеем 5-кратную схему подкрепления с фиксированной кратностью (ФК-5). Если же число реакций, после которых к ребенку подходят, варьирует при прежней средней кратности, то это схема подкрепления с переменной кратностью (ПК-Г).
Наконец, бывают сцепленные схемы подкрепления. Мать может сначала выжидать несколько раз по 20 минут после последнего подкрепления (Ф11-20), а затем подходить к ребенку через то или иное число приступов плача, но в среднем через три (ПК-3). Здесь сложная схема подкрепления, составленная из двух простых. К сожалению родителей, ребенок довольно быстро реагирует на зависимости, заключенные в сложной схеме подкрепления, и соответственно строит свое поведение. В реальных ситуациях воспитания младенца преобладают схемы умеренной сложности — результат взаимодействия случайных огорчений ребенка и беспорядочных попыток родителей справиться с положением.
До сих пор мы говорили о положительном подкреплении, при котором ребенок получает то, чего он хочет. Аналогичная система правил управляет его реакциями на отрицательное подкрепление — условия, связанные с неприятными или вредными для него событиями. Оставим на время ребенка для того, чтобы рассмотреть некоторые из главных черт отрицательного подкрепления.
Обучение избавлению и избеганию. Собака помещена в челночную камеру — устройство с двумя отсеками, разделенными барьером. Задача собаки — научиться перепрыгивать через барьер из одного отсека в другой.
Когда собака находится в одном из отсеков, металлическая решетка пола в нем заряжается и ноги животного испытывают удар электрического тока. Собака быстро научается избавляться от удара, перепрыгивая в «безопасный» отсек. Обычно включению тока предшествует предупреждение: за десять секунд до удара током загорается световой сигнал. Собака обучается избегать удара тем, что перепрыгивает барьер в пределах тех десяти секунд, которые отделяют световой сигнал от удара.
Эти два процесса называются соответственно обучением избавлению и обучением избеганию. С ними связана операция отрицательного подкрепления. Избавление от удара происходит в результате прекращения его воздействия на собаку, увеличивая тем самым вероятность реакции избавления в будущем. Предоставление животному желаемого результата носит название положительного подкрепления. Отрицательное подкрепление состоит в прекращении того или иного неприятного воздействия. Как положительное, так и отрицательное подкрепление повышает вероятность той реакции, которая предшествует ему непосредственно.
Попробуем уяснить себе, чему научается животное в результате развития у него реакции избегания. Когда собака научится избегать удара, перепрыгивая через барьер при появлении светового сигнала, эту форму поведения угасить чрезвычайно трудно. Даже после того, как источник напряжения совершенно отсоединен от челночной камеры, собака по-прежнему перепрыгивает через барьер при включении света, и так повторяется сотни раз. Действующая для животного последовательность состоит в том, что если перепрыгнуть через барьер, то удара током не будет. Отключение источника тока никак не влияет на эту зависимость. Свет загорается, собака прыгает — и удара током не происходит. Действие привело к ожидаемому результату; следовательно, нет оснований изменять поведение.
Наказание. Если прекращение неблагоприятного события или возникновение благоприятного повышает вероятность предшествующей реакции, то возникновение неблагоприятного события или прекращение благоприятного должны снижать ее. Так оно и происходит на самом деле, однако ситуация, которая возникает в результате наказания, заключающегося в неприятном воздействии, несколько отличается от угасания реакции, которое возникает в результате прекращения положительного подкрепления.
Если животное привыкло совершать определенное действие для получения пищи, то его поведение весьма быстро изменится, когда после такого действия оно вместо пищи получит удар током. Иногда достаточно одной попытки для устойчивого исчезновения этой реакции. Что же касается наказания ударом, то его воздействие может распространяться на другие формы поведения, подавляя многие реакции, лишь отдаленно связанные с той, за которую животное было наказано. Большинство животных, по-видимому, чрезвычайно чувствительно к неблагоприятным воздействиям. Они проявляют сильный консерватизм в «суждении» о причине наказания, предпочитая отказ от многих форм поведения риску повторения наказания.
Ввиду этой тенденции, а также обычной непоследовательности родителей в применении наказаний попытки воздействовать на поведение ребенка с помощью наказаний могут оказаться весьма сомнительным предприятием. Более того, стресс, естественно связанный со всяким наказанием, может помешать усвоению более совершенных форм поведения; к тому же мучительные или неприятные воздействия нередко могут вызвать агрессивностью. Возвращаясь к плачущему ребенку, следует сказать, что наказание определенно нельзя считать эффективным способом его успокоить; оно часто порождает порочный круг воздействий и реакций: мать шлепает ребенка потому, что он плачет, а ребенок из-за этих шлепков плачет сильнее.
Выявление корреляции. До сих нор мы говорили о том, как животное усваивает связи между своими действиями и подкреплением. Во многих ситуациях эта слизь носит вероятностный характер. В подобных случаях мы говорим о корреляции между действиями и результатом. Корреляция между двумя событиями может принимать любые значения от -100 до + 100%. Если совершение действия гарантирует результат, говорят, что корреляция равна 100% (или 1,00). Если действие исключает результат, корреляция равна --100% (или -1,00). Если отсутствует какая бы то ни было связь между действием и результатом, корреляция равна 0. Корреляция может также принимать все промежуточные значения. Так, можно сказать, что корреляция между условием «сильная облачность» и результатом «дождь» составляет 0,75; это означает, что при наличии сильной облачности выпадение дождя — событие в высшей степени вероятное. Корреляцию между совершенно ясной, солнечной погодой и выпадением дождя можно оценить в —0,05, подразумевая под этим, что первое событие почти (но не полностью) исключает второе.
Связь между действием и результатом есть просто частный случай корреляции. Животные не только способны усваивать корреляции; они вполне способны усвоить, что между некоторым действием и определенным результатом имеет место нулевая корреляция.
Заученная беспомощность. Вернемся и нашей ситуации обучения избавлению и избеганию. Собаку помещают в челночную камеру и подвергают ударам электрического тока. Но на этот раз барьер отсутствует и не существует реакции, которая позволила бы ей избавиться от удара или избежать его. Отсутствует корреляция между действиями и результатами. После того как собака освоится с этой обстановкой, экспериментатор изменяет условия. Снова установлен барьер, и можно избавиться от удара или избежать его, если во время перепрыгнуть через барьер. И вот оказывается, что в новой ситуации (в отличие от вышеописанных экспериментов) собака, прошедшая через условия нулевой корреляции, с большим трудом усваивает тот факт, что она может избавиться от ударов. Некоторым животным так и не удается научиться этому, даже если экспериментатор подсказывает им правильное поведение, перенося их через барьер (Зелигман, Майер и Соломон, 1969). У этих собак как бы создалась гипотеза о своей беспомощности. К несчастью для собаки, если такая гипотеза возникла, искоренить ее очень трудно. За время, когда она испытывала неотвратимые удары, собака, по-видимому, твердо усвоила, что любая из реакций, находящихся в ее распоряжении, влечет за собой удар. Всякий раз, получив удар, она получала и подтверждение этой гипотезы, а коль скоро ее ожидание подтверждалось, вероятность того, что собака предпримет что-либо при следующем предъявлении, становилась еще меньше.
В сущность ситуации можно до некоторой степени проникнуть, производя аналогичные опыты над людьми. И, к счастью, можно спросить, почему им не удается научиться реакции избавления после того, как условия переменились. В одном из таких экспериментов 60% лиц из числа тех, кому так и не удалось научиться избавляться от неприятного воздействия, заявили, что они «...чувствуют себя бессильными предотвращать удары. А если так, то зачем стараться? Эти испытуемые заявили, что большую часть времени они проводили в ожидании следующего удара. Около 35% испытуемых заявили, что, нажав раз на одну пли две кнопки (надлежащая комбинация предотвращает удар), они отказались от надежды на избавление» (Торнтон и Джейкобс, 1971, стр.371). Испытуемые, не прошедшие «школу нулевой корреляции», реагировали совершенно иначе. Мало того, что они научились избавляться от ударов, но еще «свыше 70% из них заявили, что, очевидно, существует способ управлять ударами, надо только найти его». Могущество пессимистической гипотезы ярче всего проявилось в поведении тех лиц, которые считали удары неотвратимыми, но которым в условиях возможности избавиться от ударов “случайно” удавалось избавиться от них. Иной раз этим испытуемым удавалось «... избегать ударов один или несколько раз подряд, но при последующих попытках они снова получали полный удар, длившийся 3 секунды. Было ясно, что они не связывали своих реакций с подкреплением».
Одна из трудностей, с которой сталкивается испытуемый или подопытное животное в экспериментах по изучению явления беспомощности, состоит в том, что условия нулевой корреляции отличаются от новой, измененной ситуации очень незначительно. Это общее явление: если разница между двумя графиками подкрепления трудноуловима, то смена графиков слабо влияет на поведение (по крайней мере в первое время).
Угашение и различение. Если животное научилось решать какую-то задачу, скажем нажимать на рычаг для получения пищи, то что происходит при угашении навыка, когда при нажимании рычага пища больше не появляется? Ответ зависит от схемы подкрепления, которая использовалась при обучении. Если это была схема с фиксированной кратностью 1 (ФК-1), т. е. если, нажав на рычаг, животное всякий раз получало пищу, то вскоре после начала угашения животное перестает нажимать на рычаг. Изменение схемы является резким и его легко обнаружить.
Допустим теперь, что схема меняется постепенно, от ФК-1 к ФК-10, затем ФК-100 и даже ФК-1000. При умелом проведении такого сдвига животное, пожалуй, научится добывать пищу, даже если ему придется нажимать на рычаг на 1000 раз для каждого подкрепления. Животное, привыкшее действовать по схеме ФК-1000, когда начнется угашение, лишь с большим трудом сможет заметить, что произошло какое-то изменений. Оно не изменит своих реакций еще в течение долгого времени после того, как подкрепление прекратилось. И если бы, например, последняя схема перед началом угашения была переменной, скажем ПК-1000, то угашение лишь очень нескоро привело бы к прекращению реакции, а то и не привело бы совсем. Чем реже (или чем с большими вариациями) мы даем подкрепление при обучении, тем дольше будут сохраняться реакции животного после начала угашения. Разумеется, само научение в этих условиях представляет более трудную задачу.
Эффект частичного подкрепления. Продолжительное сохранение неизменяющихся реакций при угашении по схеме с редким поощрением называется эффектом частичного подкрепления (ЭЧП). Для поддержания в условиях угашения усвоенной формы поведения лучше всего обучать животное по схеме, при которой подкрепляется лишь часть реакций, предпочтительно с большой и притом переменной кратностью.
Рассмотрим проблему воспитания ребенка в начальной школе с целью повысить его прилежание. Если учитель поощряет ребенка каждый раз, как тот поступает надлежащим образом, скажем вовремя выполняет задание, то все будет идти гладко лишь до тех пор, пока учитель реагирует на каждое отклонение в его поведении. Однако, если учитель ослабит внимание, поведение ученика может стать беспорядочным. Отсутствие ожидаемого подкрепления не только побуждает ребенка нарушить усвоенную форму поведения, но может даже вызвать у него реакцию «разочарования».
В идеале учитель должен очень постепенно увеличивать перерывы между подкреплениями, осторожно приучая ребенка ожидать еще более скудного графика похвал. После такого воспитания поведение ученика, по всей вероятности, не изменится, даже если учитель не будет уделять ему достаточно внимания (или отлучится на несколько дней), поскольку длительное отсутствие поощрения за хорошее поведение невозможно сразу отличить от нормальных колебаний в схеме. Для формирования поведения необходимо применять непрерывную, или 100%-ную, схему подкрепления (ФК-1); для поддержания установившейся формы поведения следует применять частичную схему.
"Рассмотрим снова проблему плачущего ребенка. Допустим, родители подходили к ребенку каждый раз, как он заплачет. В результате ребенок принимается плакать практически всякий раз, когда он проснулся, а родителей нет поблизости. Допустим теперь, что доведенные до отчаяния родители решились совершенно не обращать внимания па его крик, с тем чтобы угасить эту форму поведения, и подходить к ребенку лишь после того, как он замолчит. Как правило, им не удается провести это решение в жизнь. Как пишет добрый доктор Спок,
«Сердобольным родителям невыносимо слышать продолжительный плач ребенка. Они воображают самое худшее: что его головка застряла между прутьями кроватки, что его вырвало и он лежит весь перепачканный, что он в панике, так как ему кажется, что его бросили».
В результате ребенок получает частичное подкрепление по некоторой схеме, скажем в среднем через час (ПИ-60). Это, разумеется, прямо противоположно тому, к чему стремились родители. Плач становится еще более продолжительной и трудноугасимой реакцией. Младенец усвоил, что ему надо плакать дольше, чтобы получить подкрепление. Предоставим опять слово доктору Споку:
«Очень важно удержаться от искушения подойти к ребенку, чтобы убедиться, что с ним все в порядке, или чтобы успокоить его, что вы рядом. Это только рассердит его еще больше, и он будет плакать гораздо дольше».
Связи между условиями среды и результатами. Угашение реакции можно рассматривать как постановку перед животным некоторой задачи на различение. Ему нужно понять, какая схема действует, прежде чем оно сможет изменить свое поведение подлежащим образом. Один из способов сделать характер схемы различимые состоит в том, чтобы пометить его явным образом, меняя один из параметров среды всякий раз, когда схема подкрепления меняется. Мы называем эту контекстную подсказку сигнальным стимулом.
Стимульный контроль. Стимул, сигнализирующий присутствие подкрепления, обозначается SD; стимул, указывающий на отсутствие подкрепления (процедура угашения),— SA. Теперь ситуация контролируется значительно лучше: животное обычно без труда усваивает, что подкрепление можно получить, когда налицо SD и что его нечего ожидать при наличии SA. (Обычно в опытах на животных SD и SA — это наличие и отсутствие светового сигнала; при работе с людьми это появление надписи «Неверно».)
Приняв понятие контроля при помощи стимулов, его легко распространить на сигналы другого рода. Во-первых, сам стимул SD может выступать в качестве вторичного подкрепления. Животное желает действовать так, чтобы появилось SD. Так, оно может научиться выполнять некоторый график с целью получить надлежащий SD, обозначающий начало другого графика, приводящего в конце концов к получению пищи. Более того, как только животное научилось связывать тот или иной S со своим графиком, мы получаем возможность использовать эту связь для установления того, какой график оно предпочитает.
Выбор. Допустим, что мы тренируем животное по схеме с фиксированной кратностью, подкрепляя каждую 100-ю его реакцию. Сигналом для этой схемы (ФК-100) служат вертикальные полосы, нанесенные на рычаг. В том же эксперименте, но в другие часы можно тренировать животное по иной схеме, скажем с переменной кратностью 100 (ПК-100). В это время используется рычаг с горизонтальными полосами. Затем животному предоставляют возможность нажимать любой из рычагов: с горизонтальными и с вертикальными полосами. Это ситуация выбора. Наблюдая реакции животного, можно определить, какую из двух схем, ФК-100 или ПК-100, оно предпочитает. Очевидно, этот метод можно использовать для сравнения любых двух (или более) схем.
Различени. Эту же методику с некоторыми изменениями можно использовать для изучения той формы поведения животного, которая называется различением. Для начала берут две схемы, о которых известно, что одной из них животное определенно отдает предпочтение перед другой. Простейшим примером может служить схема ФК-1 и схема, при которой подкрепления нет вовсе. Пусть сигналом для первой схемы служит яркий свет (это SD), а для второй — слабый свет (это SA). Теперь перед животным два рычага и два стимула (яркий и слабый свет). Если животное способно уловить различие в яркости света, оно, но всей вероятности, всегда будет выбирать рычаг, «помеченный» ярким SD - светом, за которым всегда следует подкрепление. Будем теперь постепенно снижать интенсивность SD - света приближая его к яркости SA - света. Способность животного различать степень яркости можно определять по его способности к выбору надлежащей реакции (само собой разумеется, мы время от времени произвольно изменяем конкретную привязку графиков и световых стимулов к рычагам, так чтобы местоположение последних не играло роли). Описанный метод может применяться для определение способности животного к различению при любых стимулах, пригодных в качестве SD и SA. Это стандартный метод измерения чувствительности животные» к световым, звуковым и иным сигналам.
Составление цепей подкреплений. Коль скоро стимул приобрел значение вторичного подкрепления, его можно использовать самостоятельно в качестве подкрепления какой-либо реакции. Так, если научить шимпанзе добывать виноград, опуская голубые кружки в щель автомата, то сами кружки вскоре становятся средством подкрепления. Теперь можно обучать шимпанзе и другим действиям, результатом которых будет получение голубых кружков. Можно научить его, например, добывать кружки, дергая веревку.
После того как это последнее действие освоено, оно само может выступать в роли подкрепления. Так, можно научить шимпанзе открывать двери, чтобы добраться до веревки. Стимулом при открывании двери может стать, например, свет (дверь открывается только при включенном свете). А для управления светом можно предусмотреть выключатель.
Коночным результатом такого сложного обучения будет цепь последовательных реакций. Это весьма впечатляющее зрелище: проголодавшийся шимпанзе пересекает комнату и включает свет; затем он подходит к двери, отворяет ее и дергает за веревку; при этом выкатывается голубой кружок, шимпанзе опускает его в щель автомата и получает наконец свою гроздь винограда.
Для создания цепи такого рода важно при обучении каждый раз отправляться от подкреплений, ставших уже привычными. Поэтому цепь обычно заучивается в обратном порядке, как в описанном примере.
формирование поведения. При создании цепи подкреплении приходится идти вспять, постепенно наращивая нужную последовательность реакции. Этим в решающей степени определяется сила метода оперантного обусловливания, искусства формировать (to shape) поведение путем избирательного подкрепления желаемых характеристик и неподкрепления прочих. Положим, некто желает научить свою собаку ходить на задних лапах. Согласно оперантному методу, он должен сначала определить подкрепляющее событие, например поедание собакой небольшой порции пищи. Далее необходимо создать какой-то различительный сигнал для пищи. Для этого можно воспользоваться свистком, подавая сигнал всякий раз, когда дается пища. Рано или поздно свисток превратится в SD и приобретет значение подкрепления. Теперь свисток SD может служить подкреплением для следующей реакции (разумеется, для того чтобы это подкрепление было эффективным, обучение всегда следует проводить, когда собака немного голодна).
Когда SD установилось, можно начинать обучение. Сначала подкрепление дается собаке при всяком движении, хотя бы отдаленно напоминающем попытку встать на задние лапы. Постепенно критерии подачи свистка изменяются: сидение на задних лапах; отрыв одной передней лапы от земли в сидячем положении; наконец, попытка подняться, не касаясь земли обеими передним и лапами. Самое главное — лепить или формировать поведение животного очень постепенно, пока не будет достигнут желаемый результат. Заметьте, что никаких наказаний не требуется — нужно только подкрепление. Конкретная последовательность подкрепляемых действий может быть различной для разных собак; самое важное — чтобы подкреплялись поведенческие реакции, постепенно приближающиеся к желаемой. Формирование поведения производится путем избирательного подкрепления последовательных приближении к желаемому поведению. При этом необходимо иметь надежный, легко предъявляемый подкрепитель.
Первый шаг в формировании — установить связи подкрепления. Попытка обучать собаку, разрешая ей есть, если она «ведет себя хорошо» во время сеанса обучения, не даст никаких результатов. Свисток эффективен потому, что его можно подавать в тот самый момент, когда происходит надлежащая реакция. Собака может понять, какое именно действие от нее требуется, лишь в том случае, если подкрепление предъявляется немедленно после правильной реакции. Свисток служит не только под крепителем, но и сигналом обратной связи. Следует позаботиться о поддержании эффективности свистка в качестве подкрепления, давая животному еду после его подачи (здесь допустим частичный график подкрепления). Вообще говоря, можно пользоваться и словесным подкреплением (например, «Молодец!»), но при условии, чтобы это слово использовалось исключительно как подкрепитель. Если произносить его в иных ситуациях, это приведет к угашению его эффективности в качестве подкрепления.
Таковы некоторые основные явления, связанные, с усвоением непосредственных связей между действиями и результатами. В целом они позволяют представить себе, какова зависимость между действиями животного или человека и событиями, происходящими в окружающем мире. Одна из самых поразительных особенностей этого обучения — та чувствительность, с которой животное откликается своим поведением на весьма тонкие связи между действиями и результатами. Эта особенность выступает наиболее наглядно, когда животному предоставляется возможность приобретать знания постепенно и систематически. По-видимому, информация, извлекаемая им из процесса обучения, содержит всестороннюю корреляцию между стимульным контекстом, реакциями и результатами. Другими словами, закон эффекта оказывается применимым не только к индивидуальному подкреплению, но и ко всей системе корреляций между событиями.
Явления, связанные с усвоением связей, показывают нам, что делает организм, но мы еще не знаем, как он это делает. Мы обратимся теперь к рассмотрению некоторых процессов, лежащих в основе способности организма приспосабливать свои реакции к зависимостям внешнего мира.