:: Читать - Глава 11: Как вознаграждение руководит действиями - Оглавление - Книга "Модели разума. Как физика, инженерия и математика сформировали наше понимание мозга" - Линдсей Грейс - ЛитЛайф - книги читать онлайн

Глава 11: Как вознаграждение руководит действиями

Обучение с подкреплением описывает, как животные или искусственные агенты могут научиться вести себя, просто получая вознаграждение. Центральным понятием в обучении с подкреплением является ценность - мера, которая сочетает в себе размер вознаграждения, полученного в данный момент, и ожидаемого в будущем.

Уравнение Беллмана определяет ценность (V) состояния (s) в терминах вознаграждения ( ), полученного, если в этом состоянии будет выполнено действие a, и дисконтированной стоимости следующего состояния:

Здесь - коэффициент дисконтирования, а T - функция перехода, определяющая, в каком состоянии окажется агент после выполнения действия a в состоянии s. Операция max служит для того, чтобы всегда выполнялось действие, приносящее наибольшую ценность. Вы можете видеть, что определение ценности является рекурсивным, поскольку сама функция ценности появляется в правой части уравнения.

Предыдущая глава "Глава 10: Принятие рациональных решений"

Следующая глава "Глава 12: Великие единые теории мозга"

ЛитЛайф

Жанры

Авторы

Книги

Серии

Форум

Глава 11: Как вознаграждение руководит действиями