Глава 11: Как вознаграждение руководит действиями
Обучение с подкреплением описывает, как животные или искусственные агенты могут научиться вести себя, просто получая вознаграждение. Центральным понятием в обучении с подкреплением является ценность - мера, которая сочетает в себе размер вознаграждения, полученного в данный момент, и ожидаемого в будущем.
Уравнение Беллмана определяет ценность (V) состояния (s) в терминах вознаграждения ( ), полученного, если в этом состоянии будет выполнено действие a, и дисконтированной стоимости следующего состояния:
Здесь - коэффициент дисконтирования, а T - функция перехода, определяющая, в каком состоянии окажется агент после выполнения действия a в состоянии s. Операция max служит для того, чтобы всегда выполнялось действие, приносящее наибольшую ценность. Вы можете видеть, что определение ценности является рекурсивным, поскольку сама функция ценности появляется в правой части уравнения.