Изменить стиль страницы

Глава 11. Как вознаграждение руководит действиями.

Временные различия и обучение под креплением

Большую часть своей жизни Иван Петрович Павлов был ученым и имел одну страсть - пищеварение. Он начал свою научную деятельность в 1870 году с диссертации о нервах поджелудочной железы. В течение 10 лет, будучи профессором фармакологии в Санкт-Петербурге, он разрабатывал способы измерения желудочного сока у животных в процессе их жизнедеятельности, чтобы показать, как изменяется секреция различных органов в ответ на пищу или голод. А в 1904 году ему была присуждена Нобелевская премия "в знак признания его работ по физиологии пищеварения, благодаря которым знания о жизненно важных аспектах этого предмета были преобразованы и расширены".

Неудивительно, что, учитывая все его успехи в изучении кишечника, Павлов вошел в историю как одна из самых влиятельных фигур в психологии.

Переход Павлова к изучению разума был в некотором роде случайным. В ходе эксперимента, призванного измерить слюноотделение у собак в ответ на различные виды пищи, он заметил, что их рты разинуты еще до появления еды - достаточно было услышать звук шагов помощника, вносящего миски. В этом не было ничего необычного. Большая часть предыдущих работ Павлова была посвящена изучению влияния нервной системы на пищеварительную систему, но обычно это были более очевидные взаимодействия, такие как влияние запаха пищи на секрецию желудка - взаимодействия, которые, как можно предположить, были врожденными для животного. Слюнотечение при звуке шагов - это не реакция, жестко заложенная в генах. Этому нужно научиться.

Павлов был строгим и неумолимым ученым. Когда из-за публичных расстрелов, связанных с русской революцией, один из коллег опоздал на встречу, Павлов ответил: "Какая разница, какая революция, когда у вас есть эксперименты, которые нужно делать в лаборатории? Однако такая интенсивность способствовала кропотливой работе, и когда он решил продолжить наблюдения за слюноотделением, то сделал это тщательно и исчерпывающе.

Павлов неоднократно подавал собаке нейтральный сигнал - например, тиканье метронома или звук зуммера (но не колокольчика, как принято считать; Павлов полагался только на стимулы, которые можно было точно контролировать). За нейтральным сигналом следовала еда. После этих пар он наблюдал за тем, как сильно у собак выделяется слюна в ответ на один только сигнал. Он писал в характерных деталях: "Когда звуки бьющего метронома попадают на ухо, через девять секунд начинается выделение слюны, а в течение 45 секунд выделяется 11 капель".

Варьируя специфику этой процедуры, Павлов каталогизировал многие особенности процесса обучения. Он задавал такие вопросы, как: "Сколько пар "сигнал - пища" требуется для надежного обучения?" (около 20); "Имеет ли значение время между сигналом и пищей?" (да, сигнал должен начинаться до появления пищи, но не слишком сильно); "Должен ли сигнал быть нейтральным?" (нет, животные могли научиться выделять слюну в ответ на слегка негативные сигналы, например, на раздражение кожи); и многое другое.

Этот процесс - многократное сопряжение предстоящего вознаграждения с чем-то, обычно не связанным с ним, до тех пор, пока эти два фактора не становятся связанными - известен как классическое или (что неудивительно) "павловское" обусловливание, и он стал основным в ранних исследованиях в области психологии. Рецензенты книги Павлова, вышедшей в 1927 году и описывающей его методологию и результаты, назвали его работу "представляющей жизненный интерес для всех, кто изучает разум и мозг" и "замечательной как с точки зрения точности его методов, так и научной проницательности, проявившейся в масштабном характере его выводов".

Работы Павлова в конечном итоге стали основой одного из крупнейших течений в науке XX века - бихевиоризма. Согласно бихевиоризму, психологию следует определять не как изучение разума, а скорее как изучение поведения. Поэтому бихевиористы предпочитают описания наблюдаемой внешней активности любому теоретизированию о внутренней психической активности, такой как мысли, убеждения или эмоции. Для них поведение людей и животных может быть понято как сложный набор рефлексов - то есть сопоставлений между входными сигналами из мира и выходными сигналами, производимыми животным. Эксперименты по обусловливанию, такие как эксперимент Павлова, предложили чистый способ количественной оценки этих входов и выходов, что послужило толчком для развития бихевиоризма.

Поэтому после публикации его книги многие ученые стремились повторить и развить работу Павлова. Американский психолог Б. Ф. Скиннер, например, узнал о Павлове из рецензии на книгу известного писателя-фантаста Г. Г. Уэллса. Чтение этой статьи пробудило интерес Скиннера к психологии и направило его на путь становления ведущей фигурой бихевиористского движения, проведя бесчисленное количество точных исследований поведения крыс, голубей и людей.1

Когда в какой-либо области науки накапливается достаточно количественных данных, она в конце концов обращается к математическому моделированию, чтобы придать им смысл. Модели находят структуру в грудах цифр; они могут объединить разрозненные результаты и показать, как они возникают в результате единого процесса. В течение десятилетий после Павлова количество данных, получаемых в ходе поведенческих экспериментов по обучению, сделало их готовыми для моделирования. Как писал в 1950 году Уильям Эстес, выдающийся американский психолог, работавший над математикой обучения, данные по обучению "достаточно упорядочены и воспроизводимы, чтобы поддерживать точные количественные предсказания поведения".

В другой работе, опубликованной в 1951 году, говорится: "Среди отраслей психологии немногие так богаты количеством и разнообразием доступных данных, необходимых для построения моделей, как обучение". Эта работа, "Математическая модель простого обучения", была написана Робертом Бушем и Фредериком Мостеллером в Лаборатории социальных отношений Гарвардского университета. Буш был физиком, ставшим психологом, а Мостеллер - статистиком. Вместе, под влиянием работ Эстеса, они вывели формулу обучения ассоциациям между сигналами и вознаграждением, которая стала отправной точкой для целого ряда все более сложных моделей. В течение десятилетий обучение, которое отражают эти модели, стало известно как "обучение под креплением". Обучение с подкреплением - это объяснение того, как возникает сложное поведение, когда единственными сигналами обучения являются простые вознаграждения и наказания. Это, во многом, искусство учиться делать то, что нужно, без подсказок.

* * *

В своей модели Буш и Мостеллер сосредоточились на конкретной мере выученной ассоциации между сигналом и вознаграждением: вероятности реакции. Для собак Павлова это вероятность слюноотделения в ответ на звуковой сигнал. Буш и Мостеллер использовали простое уравнение, чтобы объяснить, как эта вероятность меняется каждый раз, когда награда дается - или не дается - после сигнала.

Допустим, вы берете любую случайную собаку с улицы (ходят слухи, что Павлов получал своих подопытных, воруя их на улицах). Вероятность того, что эта собака пустит слюну при звуке зуммера, равна нулю; у нее нет причин подозревать, что зуммер означает еду. Теперь вы нажимаете на зуммер, а затем даете собаке кусок мяса. Согласно модели Буша-Мостеллера, после этой встречи вероятность того, что собака пустит слюну в ответ на зуммер, возрастает (см. рис. 24). Точная величина этого увеличения зависит от параметра в формуле, называемого скоростью обучения. Скорость обучения контролирует скорость всего процесса. Если скорость обучения очень высока, одной пары может быть достаточно, чтобы закрепить в сознании собаки связь между звуковым сигналом и едой. Однако при более разумных показателях вероятность появления слюноотделения остается низкой после первого сопряжения - возможно, она достигает 10 процентов - и повышается каждый раз, когда за звуковым сигналом следует пища.

Однако независимо от значения скорости обучения, когда во второй раз после звукового сигнала подается пища, вероятность появления слюноотделения возрастает меньше, чем в первый раз. Так, если после первой пары она увеличилась с 0 до 10 процентов, то после второй пары она увеличится еще на девять процентных пунктов, до 19 процентов. И только на восемь процентных пунктов после третьего. Это говорит о том, что в модели Буша-Мостеллера (и в модели собак) изменение вероятности при каждом спаривании зависит от значения самой вероятности. Другими словами, обучение зависит от того, что уже усвоено.

С определенной точки зрения это интуитивно понятно. Нет ничего нового в том, чтобы каждый день видеть восход солнца. В той степени, в какой мы верим, что что-то произойдет, его фактическое наступление мало на нас влияет. Ожидаемое вознаграждение ничем не отличается от этого. Например, мы не изменим своего мнения о начальнике, если получим ту же самую премию к празднику, которую получали последние пять лет. А собаки меняют свою реакцию на звуковой сигнал только в той степени, в какой последующая еда отличается от того, что они img_24.jpegожидают. Изменить ожидания можно только нарушив их.

Рисунок 24

Это нарушение может быть как к лучшему, так и к худшему. Для собаки первый кусок мяса после "жужжания" - это приятный сюрприз, который сильно влияет на ее ожидания. Однако после многократных спариваний ожидания меняются, и слюнотечение при звуке зуммера становится второй натурой. В этот момент самое неприятное, что может произойти, - это услышать звуковой сигнал и не получить еду. Такое лишение привело бы к значительному снижению вероятности слюноотделения в будущем - такому же значительному, как и увеличение, произошедшее при первой паре. Эта обратная сторона обучения на основе вознаграждения, когда животное учится не связывать сигнал с вознаграждением, называется угасанием. С каждым предъявлением сигнала без ожидаемой награды процесс угасания разрушает ассоциацию, в итоге полностью уничтожая выученную реакцию. Буш и Мостеллер постарались показать, что их модель точно отражает этот процесс.