Игры - это яркий и забавный способ продемонстрировать возможности такого подхода, но на этом его применение не закончилось. После того как в 2014 году компания Google приобрела DeepMind, она поставила перед алгоритмами обучения с подкреплением задачу минимизировать энергопотребление в своих огромных центрах обработки данных. В результате было достигнуто 40-процентное снижение потребления энергии для охлаждения центров и, вероятно, экономия в сотни миллионов в течение нескольких лет. Алгоритмы обучения с подкреплением, ориентированные на достижение поставленной цели, находят творческие и эффективные решения сложных задач. Таким образом, эти инопланетные разумы могут помочь разработать планы, до которых человек никогда бы не додумался.
Пути последовательного принятия решений и павловского обусловливания представляют собой победу конвергентной научной эволюции. Пути Беллмана и Павлова начинаются с отдельных и существенных проблем, каждая из которых кипит своими требовательными деталями. Как больнице составить график работы медсестер и врачей, чтобы обслужить наибольшее количество пациентов? Что заставляет собаку выделять слюну, когда в ее ушах раздается звук зуммера? Казалось бы, эти вопросы не имеют ничего общего. Но если отбросить груз конкретики, оставив лишь голые кости проблемы, становится понятна их взаимосвязь. В этом и заключается одна из задач математики: поместить вопросы, не связанные между собой в физическом мире, в одно и то же концептуальное пространство, в котором может проявиться их глубинное сходство.
Таким образом, история обучения с подкреплением - это история успешного междисциплинарного взаимодействия. Она показывает, что психология, инженерия и информатика могут работать вместе, чтобы добиться прогресса в решении сложных проблем. Она демонстрирует, как математика может быть использована для понимания и воспроизведения способности животных и людей учиться у окружающей среды. Эта история и так была бы замечательной, если бы на этом закончилась. Но она на этом не заканчивается.
* * *
Октопамин - это молекула, содержащаяся в нервной системе многих насекомых, моллюсков и червей. Он назван так из-за того, что был обнаружен в слюнных железах осьминога в 1948 году. В мозге пчелы октопамин высвобождается при попадании нектара. В начале 1990-х годов Терри Сейновски, профессор Института Солка в Сан-Диего (Калифорния), и два сотрудника его лаборатории, Рид Монтегю и Питер Даян, задумались об октопамине. В частности, они построили модель - компьютерную симуляцию поведения пчел, - в центре которой находился нейрон в мозге пчелы, выделяющий октопамин. Они предположили, что выбор пчелы, на какие цветы садиться или избегать, можно объяснить с помощью модели обучения Рескорла-Вагнера, а нейронная цепь, включающая октопаминовый нейрон, может быть аппаратным обеспечением, реализующим эту модель. Но пока они решали эту октопаминовую головоломку, команда узнала о другом исследовании, проведенном примерно в 6000 миль от них немецким профессором по имени Вольфрам Шульц, посвященном химическому родственнику октопамина - дофамину.
Возможно, вы знакомы с допамином. В популярной культуре он пользуется определенной репутацией. В бесчисленных новостных статьях его называют "химическим веществом нашего мозга, связанным с удовольствием и вознаграждением" или рассказывают о том, что такие повседневные действия, как поедание кекса, вызывают "всплеск химического вещества допамина, способствующего вознаграждению, в области мозга, где принимаются решения". Его называют "молекулой удовольствия", и нередко под этим мощным названием продаются товары. Поп-звезды называют в его честь альбомы и песни. Дофаминовые диеты" утверждают (без доказательств), что продукты, повышающие уровень дофамина, помогают сохранить стройность. А технологический стартап Dopamine Labs пообещал повысить вовлеченность пользователей в телефонные приложения за счет нейротрансмиттера. Это бедное химическое вещество знаменитостей также очень сильно задело - его называют источником всех зависимостей и дезадаптивных форм поведения. Появились онлайн-сообщества вроде The Dopamine Project, цель которых - обеспечить "лучшую жизнь через осознание дофамина". А некоторые жители Силиконовой долины даже пытались устраивать "дофаминовые голодания", чтобы отдохнуть от постоянного переизбытка стимуляции.
Хотя это правда, что выброс дофамина может сопровождать вознаграждение, это далеко не вся история. В частности, в исследовании Шульца был показан случай, когда нейроны, выделяющие дофамин, молчали, когда получали вознаграждение.
В частности, Шульц обучал обезьян протягивать руку вперед, чтобы получить немного сока. Во время обучения он регистрировал активность группы дофамин-выделяющих нейронов, расположенных в нижней части мозга. Шульц заметил, что в конце обучения - когда животные знали, что получат сок, протянув руку, - эти нейроны вообще никак не реагировали на выдачу вознаграждения в виде сока.
Когда Шульц впервые опубликовал эти результаты, у него не было четкого объяснения, почему дофаминовые нейроны ведут себя именно так, но у членов лаборатории Сейновски оно было. И они обратились к Шульцу, чтобы начать сотрудничество, в ходе которого была бы проверена гипотеза о том, что дофаминовые нейроны кодируют ошибки предсказания, необходимые для обучения по временной разнице. Это стало началом того, что Сейновски назвал "одним из самых захватывающих научных периодов в моей жизни
Даян и Монтегю попытались проанализировать данные Шульца через призму алгоритмов обучения. Они сосредоточились на простейшем эксперименте Шульца, который заключался в том, что в нужном месте включался свет, и если животное тянулось к нему, то через полсекунды подавалась капля сока. Их интересовало, как изменяется реакция дофаминовых нейронов по мере того, как животное усваивает эту ассоциацию. Но их также интересовало особое обстоятельство после обучения: что происходит, когда сок не следует за светом. Если животные усвоили ассоциацию "свет-сок", они должны были знать, что ожидать этого, и если сок не появлялся, это было бы значительной ошибкой предсказания. Отразили ли это дофаминовые нейроны?
Нейроны, выделяющие дофамин, обычно производят около пяти всплесков в секунду, когда ничего особенного не происходит. В начале процесса обучения, сразу после того, как животное, сделав движение рукой, получило, как казалось, неожиданную порцию сока, этот показатель ненадолго подскочил примерно до 20 шипиков в секунду. Однако свет, предшествующий движению, ничего не вызывал. Но после достаточного количества пар, когда животное поняло, как связаны между собой свет, достижение и сок, эта картина изменилась. Нейроны дофамина перестали реагировать на сок. Это изменение полностью соответствует представлению о том, что они сигнализируют об ошибке предсказания, поскольку, как только животное может правильно предсказать появление сока, ошибки больше нет. И они начали реагировать на свет. Почему? Потому что свет стал ассоциироваться с вознаграждением, но - что очень важно - они не знали, когда он включится. Когда он появился, это была ошибка. Точнее, это ошибка в предсказанном значении состояния животного. Сидя в экспериментальном кресле и занимаясь своими делами, обезьяна ожидает, что следующий момент будет более или менее похож на текущий. Когда включается свет, это ожидание нарушается. Как если бы вы услышали первые несколько тактов песни "С днем рождения" в коридоре своего офиса - приятный сюрприз, но тем не менее сюрприз.
Последний анализ, проведенный при спорадическом отказе от сока после достижения, был направлен на то, чтобы увидеть, как кодируются неприятные сюрпризы. Если дофамин кодирует ошибки, то он должен указывать и на то, когда ситуация хуже, чем ожидалось. И когда сок отсутствовал, нейроны именно это и делали. У них наблюдался спад в стрельбе как раз в то время, когда сок должен был быть доставлен. Точнее, в ответ на свет нейроны сбрасывали от пяти до 20 импульсов в секунду; затем, когда животное протягивало руку, их количество возвращалось к пяти. Но примерно через полсекунды после протягивания руки, когда становилось ясно, что сок не поступает, они полностью отключались. Ожидание было нарушено, и дофаминовые нейроны давали об этом знать.
Это исследование показало, что срабатывание дофаминовых нейронов может сигнализировать об ошибках - как положительных, так и отрицательных - относительно прогнозируемых значений, которые необходимы для обучения. Таким образом, оно стало важным моментом в изменении понимания дофамина от молекулы удовольствия до педагогического.
Однако если смысл кодирования ошибки заключается в том, чтобы извлечь из нее уроки, то где происходит это обучение? Оказывается, это не так просто определить, потому что дофамин-выделяющие нейроны выделяют дофамин во многих уголках мозга; их проекции пронизывают мозг, как трубы, затрагивая близкие и далекие области.Тем не менее,сайте есть место, которое кажется особенно важным, - это стриатум. Стриатум - это группа нейронов, которая служит первичным входом для целого ряда областей мозга, участвующих в управлении движениями и действиями. Нейроны в стриатуме способствуют формированию поведения, связывая сенсорные сигналы с действиями или действия с другими действиями.
Как мы видели в главе 4, гебистское обучение - это простой способ закодировать ассоциации между идеями в связях между нейронами. По правилам Хеббиана, если один нейрон регулярно срабатывает раньше другого, вес связи от первого ко второму усиливается. Однако в обучении с подкреплением нам нужно не просто знать, что два события произошли в близкое время. Нам нужно знать, как эти события связаны с вознаграждением. В частности, мы хотим обновить вес связи между сигналом и действием (например, увидеть свет и потянуться к нему) только в том случае, если эта пара окажется связанной с вознаграждением.