Как же это поможет Анжеле? Учитывая карту возможных станций метро (см. рис. 25) и соответствующие пожертвования, которые она ожидает получить от каждой из них, мы можем рассчитать "функцию ценности". Функция ценности - это просто ценность, связанная с каждым состоянием (в данном случае с каждой станцией). Мы можем рассчитать ее, начав с конца и работая в обратном направлении. Как только Анжела дойдет до Бликер-стрит, она сразу же отправится домой к своему другу и не будет заниматься букингом, поэтому вознаграждение, которое она получит в конечном пункте назначения, составит 0 долларов. Поскольку с этой точки не существует других состояний, ценность Бликер-стрит также равна нулю. Возвращаясь назад, можно вычислить ценности Юнион-сквер и 34-й улицы в терминах ожидаемого там вознаграждения и ценности Бликер-стрит. Этот процесс продолжается до тех пор, пока не будет вычислена стоимость каждой станции.
Рисунок 25
Имея на руках эти значения, Анжела теперь может планировать свое путешествие. Отправившись с Гринпойнт-авеню, она может сесть на поезд до Корт-Сквер или Метрополитен-авеню. Что ей выбрать? Если смотреть только на возможное вознаграждение от каждого из них, то Метрополитен-авеню кажется более выгодным выбором, поскольку предлагает 10 долларов против 5 долларов на Корт-Сквер. Но если посмотреть на функцию ценности, то Корт-Сквер - правильный выбор. Это происходит потому, что функция ценности заботится о том, в какие состояния вы можете попасть в будущем, а с Корт-Сквер Анджела может попасть прямо в джекпот, на Таймс-сквер. С Корт-сквер Анжела также может отправиться на Квинс-плаза, но это не имеет значения, потому что функция ценности предполагает, что Анжела умна.Она предполагает, что с Корт-сквер она пойдет на Таймс-сквер, потому что Таймс-сквер - лучший выбор. В целом, следуя функции ценности, Анжела пройдет через Корт-Сквер на Таймс-сквер, затем на 34-ю улицу и, наконец, доберется до места назначения на Бликер-стрит. В общей сложности она заработает 65 долларов - больше, чем может предложить любой путь на этой карте.
Переход Беллмана на функцию ценности был важен, потому что он исправил недостаток в первоначальной постановке задачи. Мы начали с того, что пытались вычислить общее вознаграждение, которое мы могли бы получить от данного плана. На самом деле, план - это именно то, что мы пытаемся найти! Как только мы узнаем функцию ценности, план становится простым: следуйте ему. Подобно хлебным крошкам, оставленным на лесной тропинке, функция ценности указывает вам, куда идти. Тому, кто ищет наибольшую награду, нужно лишь жадно искать следующее состояние с наибольшей ценностью. Все действия могут быть выбраны на основе этого простого правила.
В результате дисконтирования, которое является частью определения стоимости, происходят интересные вещи. Например, посмотрите на варианты, которые есть у Анжелы с Таймс-сквер. Она может либо пойти на 34-ю улицу, получить 20 долларов и закончить на Бликер-стрит, либо пойти на 14-ю улицу, получить 8 долларов, затем пойти на Юнион-сквер, получить 12 долларов и закончить на Бликер-стрит. Оба маршрута принесут ей в общей сложности 20 долларов. Но ценность 34-й улицы равна 20, в то время как ценность 14-й улицы равна 17,6 (вычисляется как 8 + 0,8 x 12), что указывает на то, что 34-я улица - лучший вариант. Это демонстрирует, как дисконтирование будущих вознаграждений может привести к планам с меньшим количеством шагов; если есть только столько вознаграждений, которые можно получить, лучше получить их быстрее, чем медленнее. Дисконтирование также означает, что даже большие вознаграждения будут игнорироваться, если они слишком далеки. Если на железнодорожной станции в Нью-Джерси Анжела получит 75 долларов, это все равно не повлияет на ее выбор, когда она будет выходить из дома. Влияние вознаграждения на функцию ценности подобно ряби от камня, упавшего в воду. Сильнее всего она ощущается в близлежащих штатах, но ее сила ослабевает, чем дальше вы удаляетесь.3
Это техническое определение стоимости - с учетом состояний, рекурсии и коэффициентов дисконтирования - может показаться далеким от того, что мы используем в повседневном языке. Но эти разговорные коннотации в значительной степени присутствуют в этом уравнении. Почему мы ценим деньги? Не потому, что бумажка или монета доставляют нам удовольствие, а потому, что мы можем представить себе будущее, когда у нас будет эта бумажка или монета. Деньги стоят только того, что они могут дать нам позже, а то, что мы можем получить позже, заложено в определении стоимости Беллмана.
Работа Беллмана по формулированию последовательных процессов принятия решений таким образом действительно позволила ему стать "современным интеллектуалом", которым он стремился стать, перейдя в RAND. В годы после его первых публикаций, описывающих это решение, бесчисленные компании и правительственные организации начали применять его в мире. К 1970-м годам идеи Беллмана использовались для решения таких разнообразных задач, как проектирование канализационных систем, составление расписания авиаперевозок и даже управление исследовательскими отделами в таких крупных компаниях, как Monsanto. Техника получила название "динамическое программирование" - довольно банальное словосочетание, которое Беллман придумал для того, чтобы отгородиться от некоторых математически фобизированных военных. 1950-е годы были не самыми удачными для математических исследований", - написал Беллман в своей автобиографии. Корпорация RAND работала на ВВС, а начальником ВВС был [Чарльз] Уилсон. Поэтому я чувствовал, что должен сделать что-то, чтобы оградить Уилсона и ВВС от того факта, что я действительно занимаюсь математикой в корпорации RAND. ... Таким образом, я решил, что динамическое программирование - это хорошее название. Это было то, против чего не мог возразить даже конгрессмен. Поэтому я использовал его как зонтик для своей деятельности".
Применяя метод в каждой из этих ситуаций, инженеры должны были найти способ вычислить функцию стоимости. В некоторых случаях, как в примере с метро, приведенном выше, ландшафт проблемы достаточно прост, и расчеты не представляют сложности. Но простые проблемы редко бывают реалистичными. Реальный мир имеет большое количество потенциальных состояний; эти состояния могут соединяться друг с другом сложными и даже неопределенными способами; и они могут делать это посредством множества возможных действий. Много усилий было потрачено на поиск функции стоимости в этих сложных ситуациях. Однако даже при использовании хитроумных методов применение динамического программирования обычно упиралось в предел вычислительных мощностей того времени. Вычисление функции ценности всегда было узким местом в процессе. А без способа нахождения функции стоимости весь потенциал вклада Беллмана оставался бы нераскрытым.
* * *
В наследии Павлова есть своя ирония. Его непосредственным следствием стало возникновение бихевиоризма - религиозного движения, стремящегося игнорировать разум и сосредоточиться только на непосредственно измеряемом поведении. Однако порожденная им линия математических моделей добилась успеха в другом направлении, все больше углубляясь в сознание; чтобы отразить обучение с подкреплением в уравнениях, потребовалось использовать термины, обозначающие скрытые ментальные понятия.
Одно из известных расширений модели Буша-Мостеллера появилось 20 лет спустя, в 1972 году, и было разработано другим дуэтом, психологами из Йельского университета Робертом Рескорлой и Алланом Вагнером. Рескорла и Вагнер обобщили модель Буша-Мостеллера, сделав ее применимой к более широкому кругу экспериментальных условий и способной охватить большее количество результатов. Первое изменение, которое они внесли, касалось самого показателя, который модель пыталась объяснить.
Вероятность реакции" Буша и Мостеллера была слишком конкретной и ограниченной. Рескорла и Вагнер вместо этого стремились зафиксировать более абстрактную величину, которую они назвали "ассоциативной силой". Сила ассоциации между подсказкой и вознаграждением - это то, что существует в сознании участника, что не позволяет измерить ее напрямую, но в разных экспериментах ее можно попытаться определить разными способами. Это может включать измерение вероятности ответа, например, вероятности слюноотделения, а также другие показатели, такие как количество слюны или поведение, например, лай или движение. Таким образом, Рескорла и Вагнер включили модель Буша-Мостеллера в более широкую структуру.
Модель Рескорла-Вагнера также расширилась, включив в себя известную особенность экспериментов по обучению, называемую "блокированием". Блокирование происходит, когда первоначальная подсказка сопряжена с вознаграждением, а затем вместе с первой подсказкой дается вторая, и обе они сопряжены с вознаграждением. Например, после того как собака научилась ассоциировать звук зуммера с едой, экспериментатор одновременно со звуком зуммера включал свет, а затем давал еду. В модели Буша и Мостеллера сигналы рассматривались совершенно отдельно. Таким образом, если свет и зуммер были сопряжены с едой достаточное количество раз, собака должна была ассоциировать свет с едой так же, как она усвоила ассоциацию со зуммером. Тогда можно было бы ожидать, что показ одного только света вызовет у собаки слюноотделение. На самом деле все обстоит иначе: у собак не возникает слюноотделения в ответ на один только свет. Присутствие зуммера блокирует способность света ассоциироваться с едой.