Вообще говоря, грань между отбором поведения и его формированием весьма условна, — уже создавая, или просто используя конкретную мотивацию, начиная упражнение в определённом месте с определённым окружением, искусственно создавая ситуацию, используя тот или иной реквизит, мы тем самым подталкиваем собаку к тому или иному поведению, то есть, в большей или меньшей степени, формируем поведение. Ведь миска из предыдущего примера — тоже реквизит. Реквизит удобный именно для царапанья. Если бы мы хотели отобрать другое поведение, например обозначение места сокрытия кусанием его, мы применили бы другой реквизит, — в этом случае — картонный ящик или тряпку.
3. Закрепление с помощью подкрепления. Тут всё вроде бы понятно. Действуют второй и третий законы научения. Закон эффекта: удачная, приведшая к удовлетворению мотивации, реакция закрепляется и впредь имеет тенденцию к воспроизведению. Закон упражнения: в результате многократного повторения одних и тех же реакций, реакции автоматизируются.
Применительно к дрессировке: тот поведенческий акт, или шире, то поведение, которое дрессировщик подкрепляет, после неоднократного повторения сначала будет проявляться всё чаще и чаще, а затем зафиксируется, превратившись в навык. В терминах поведенческого акта: сравнение результата поведенческого акта с образом цели (акцептирование результата действия) обнаруживает их тождественность и вызывает положительную оценочную эмоцию. Положительная эмоция позволяет зафиксировать образ способа достижения цели в долговременной памяти. Образно выражаясь, эмоция — это резец, который, с каждым повторением удачного (подкреплённого дрессировщиком) действия, оставляет всё более глубокий след в памяти дрессируемой собаки, фиксируя вырабатываемый навык.
…Кандид наперед знал, какие эмоции возникнут у него в следующую секунду. У нас в деревне это называется «думать».
Очень важно для дрессировщика осознать механизм акцептирования. Совпадение или несовпадение результата поведенческого акта с образом цели осознаётся животным через эмоции. Для управления собакой мы апеллируем к её эмоциям, и любое подкрепление следует понимать именно как обращение к эмоциям собаки. Собака стремится к получению положительных эмоций и пытается избежать отрицательных. Поведение, результатом которого явится получение удовольствия, радости имеет большие шансы проявляться снова и снова. Поведение, результатом которого явится боль, страх, растерянность, отвращение, вряд ли проявится снова.
Итак, настал момент, когда мы должны разобраться — что же такое «подкрепление»? К сожалению, в этом вопросе царит большая терминологическая путаница. Логично было бы предположить, что «подкрепить» какое либо поведение, значит то же самое, что и «поощрить» его. Эти слова в обыденной речи — синонимы. В обыденной речи, но, увы, не в теории модификации поведения. Здесь подкреплением называют действие дрессировщика, вызывающее у животного либо положительную, либо отрицательную эмоции и, тем самым, согласно второму закону научения — закону эффекта, либо закрепляющее то поведение, с которым совпадает по времени, либо (после многократных повторений) исключающее его из поведенческого репертуара животного. Далее, вслед за многими авторами, можно было бы назвать подкрепление, вызывающее положительную эмоцию, положительным, а вызывающее отрицательную эмоцию, отрицательным. Однако другой ряд авторов называет положительным подкреплением такое действие дрессировщика, которое ведёт к появлению у животного положительной эмоции или исчезновению отрицательной эмоции, а отрицательным подкреплением — действие, ведущее к исчезновению положительной эмоции или появлению отрицательной эмоции. Последний вариант, с точки зрения содержательности, предпочтительнее. Однако смущает тот факт, что на 4 различных явления приходится лишь 2 термина. Поэтому я предлагаю пойти на компромисс и принять, что подкрепление может выражаться в двух формах: поощрения и наказания. (Разумеется, я знаю, что понятие «наказание» с лёгкой руки Прайор считается нынче чуть ли ни неприличным. Но ведь это всего лишь вопрос терминологии). Итак, поощрение вызывает положительную эмоцию, а наказание — отрицательную. Нужно также учесть, что подкрепление — это действие, ограниченное во времени. С точки зрения собаки, начало поощрения — это, разумеется, хорошо, и поведение, с которым оно совпадёт по времени, становится для неё предпочтительным. И наоборот, окончание поощрения — плохо, и совпадающее с ним по времени поведение становится нежелательным. В свою очередь, начало наказания — плохо, действие угашается. Окончание наказания — хорошо, действие закрепляется. Итак, мы пришли к выводу, что существует четыре вида подкрепления: начало и продолжение поощрения (закрепляющее, положительная эмоция возникает и длится), окончание поощрения (угашающее, положительная эмоция исчезает), начало и продолжение наказания (угашающее, отрицательная эмоция возникает и длится), и окончание наказания (закрепляющее, отрицательная эмоция исчезает). Кстати, когда мы говорим о поощрении и наказании в обыденной речи, мы имеем в виду именно начало поощрения и начало наказания и совершенно упускаем из виду момент их окончания, оказывающий прямо противоположное действие.
Есть ещё вариант: нет ни наказания, ни поощрения — этот случай сам по себе эмоционально не окрашен, всё зависит от контекста. В одном случае бездействие дрессировщика воспринимается собакой как поощрение, в другом — как наказание. Например, собака, уже наученная идти «рядом», стремясь на прогулку, натягивает поводок. Дрессировщик не реагирует. Тем самым такое поведение закрепляется. Противоположный пример: собака лает, требуя у дрессировщика лакомство. Дрессировщик не реагирует. Такое поведение постепенно исчезает.
Обобщая, можно сказать: что бы ни делал дрессировщик во время дрессировки, его поведение можно описать одним из пяти вышеперечисленных вариантов. И все они для собаки эмоционально окрашены, все воздействуют на её поведение. Вывод о необходимости тщательного анализа и планирования выполнения дрессировочных приёмов предоставляю сделать читателю.
Длительность поощрения и наказания, их продолжительность во времени могут вызвать проблемы во время дрессировки. Например: дрессировщик тренирует посадку собаки. В ответ на то или иное воздействие дрессировщика собака садится. Дрессировщик поощряет посадку лакомством. Но даже маленький кусочек сыра собака, как правило, не глотает целиком. Какое-то время, пусть непродолжительное, собака разжёвывает лакомство — и за это время успевает встать! Что, собственно говоря, поощрено в этом случае? Тот же пример — дрессировщик поощрил лакомством посадку собаки. Собака продолжает сидеть. Дрессировщик считает, что начало выработке навыка положено. Но через какое-то количество повторений приёма собака начинает вставать, после того как съест лакомство. Поведение «посадка» закреплялось началом поощрения — лакомства, и в то же время поведение «сидение на месте» угашалось окончанием поощрения — лакомства.
Как было бы хорошо, если бы существовало моментальное, не имеющее протяжённости во времени поощрение! Во-первых, точное совпадение во времени с подкрепляемым поведением перестало бы быть проблемой (а такая проблема, и очень серьёзная есть — это подтвердит любой дрессировщик). Во-вторых, не имея протяжённости во времени, такое поощрение имело бы только значение начала поощрения, то есть, значение, вызывающее положительную эмоцию, и не имело бы значения отмены поощрения, вызывающего отрицательную эмоцию.
В действительности все не так, как на самом деле.
Оказывается, такое поощрение существует. Это условное поощрение, — условный раздражитель, которому с помощью образования условного рефлекса, придано значение поощрения. Более того, поскольку это условное поощрение представляет собой короткий (значительно более краткий чем то поощрение, на которое он вырабатывался) сигнал, оказалось возможным придать ему значение начала поощрения. (Слукавил я, выходит, когда в полемическом задоре убеждал читателей, что условные рефлексы практически не используются в дрессировке. Ещё как используются, — для выработки условных подкреплений.). Итак, условные рефлексы используются в дрессировке активно, — для того чтобы связать произвольный и первоначально индифферентный (ничего не значащий) для собаки стимул с положительной или отрицательной эмоцией, превратив его тем самым в условное подкрепление. Англоязычные дрессировщики называют условное подкрепление специально связанное с тем или иным безусловным «бридж-сигнал», то есть сигнал-мостик. Название, весьма точно отражающее содержание понятия. На понятии условного подкрепления мы остановимся поподробнее, проиллюстрировав его примером из кликер-тренинга, одной из методик оперантной дрессировки (мотивированной дрессировки, обуславливания операнта, кондиционирования операнта и т. д., терминам несть числа). В начале дрессировки тренеры, применяющие кликер (это такая маленькая, щёлкающая при нажатии коробочка) проводят так называемую «презентацию кликера». Основой такой презентации может быть начало любого безусловного поощрения, например игры с апортиком или кормления, выдача лакомства. Дрессировщик щёлкает кликером и тут же даёт собаке лакомство (бросает апортик). И так 30-40 раз. В конце занятия вы заметите: услышав щелчок, собака активно ищет награду. Следующее занятие нужно проводить в другое время дня и в другой обстановке. Задача состоит в том, чтобы собака твёрдо усвоила: щелчок кликера, а не какая-либо обстановка или время суток, предвосхищает награду. Точно так же можно «представить» и свисток и просто короткое слово. Более того, слово в качестве условного подкрепления имеет то преимущество, что обладает интонацией. А тон (высота звука) для собаки является релизером, то есть врождённо понятным сигналом. Высокий (но не на уровне визга) тон — положительная эмоция, так мать поощряет щенков, низкий тон — отрицательная эмоция, угроза. Таким образом, слово — подкрепление условное, но, частично и безусловное (имеет безусловную компоненту). Все дрессировщики этим интуитивно, по аналогии с человеческим общением, или осознано пользуются в той или иной мере.