Изменить стиль страницы

Таким образом, нейроны в стриатуме не следуют базовому гебистскому обучению. Вместо этого они следуют модифицированной форме, при которой срабатывание одного нейрона перед другим укрепляет их связь только в том случае, если это происходит в присутствии дофамина. Таким образом, дофамин, который кодирует сигнал об ошибке, необходимый для обновления значений, также требуется для физических изменений, необходимых для обновления, которые происходят в синапсе. Таким образом, дофамин действительно действует как смазка для обучения.

Появление языка изучения временных различий, на котором можно говорить о работе мозга, изменило разговор на такие клинические темы, как зависимость. Одна из теорий, выдвинутая в 2004 году нейробиологом Дэвидом Редишем, пытается объяснить вызывающие зависимость свойства таких наркотиков, как амфетамин и кокаин, с точки зрения их влияния на высвобождение дофамина. Он утверждает, что эти наркотики вызывают выброс дофамина, который не зависит от истинной ошибки предсказания. Точнее, перегружая дофаминовые нейроны, эти наркотики посылают в остальной мозг ложный сигнал о том, что наркотический опыт всегда лучше, чем ожидалось. Этот ошибочный сигнал об ошибке все еще стимулирует обучение, подталкивая оценочную стоимость состояний, связанных с употреблением наркотиков, все выше и выше. Подобная деформация функции ценности гарантированно оказывает пагубное влияние на поведение, подобное тому, что наблюдается при наркомании.6

* * *

Дэвид Марр - британский нейробиолог с математическим образованием. Его книга "Видение: A Computational Investigation into the Human Representation and Processing of Visual Information" была опубликована в 1982 году, через два года после его смерти. В первой главе он излагает компоненты, необходимые для успешного анализа нейронной системы. По мнению Марра, чтобы понять любой кусочек мозга, мы должны быть в состоянии объяснить его на каждом из трех уровней: вычислительном, алгоритмическом и реализационном. На вычислительном уровне спрашивается, какова общая цель этой системы, то есть что она пытается сделать? На алгоритмическом уровне спрашивается, как, то есть с помощью каких шагов, она достигает этойцели. И наконец, уровень реализации спрашивает, какие именно части системы - какие нейроны, нейротрансмиттерыи т. д. - выполняют эти шаги.

Объяснение, охватывающее все уровни Марра, - это стремление, к которому стремятся многие нейробиологи. Системы, осуществляющие обучение с подкреплением, - редкий случай, когда они могут приблизиться к этой высокой планке. На вычислительном уровне у обучения с подкреплением есть простой ответ: максимизировать вознаграждение. Это то, что Беллман считал целью последовательных процессов принятия решений, и то, чего вы должны достичь, следуя функции ценности. Но как узнать функцию ценности? Вот тут-то и приходит на помощь обучение временным различиям. Работы Буша, Мостеллера, Резорлы, Вагнера и Саттона превратили стопки данных, полученных в ходе экспериментов по обучению, в строки символов, которые могли бы описать алгоритм, необходимый для выполнения обучающей части обучения с подкреплением. На уровне реализации дофаминовые нейроны берут на себя задачу вычисления ошибки предсказания, а сигналы, которые они посылают в другие области мозга, управляют усвоенными там ассоциациями. Таким образом, удовлетворительное понимание фундаментальной способности - учиться на вознаграждениях - было достигнуто благодаря тому, что мы подошли к этой теме с разных сторон.