Изменить стиль страницы

Этот метод нашел широкое применение в самых разных отраслях. Шаблоны использовались для подсчета численности толпы путем поиска лиц на фотографии. Известные географические объекты также находили на спутниковых снимках с помощью шаблонов. Можно также отслеживать количество и модели автомобилей, проезжающих через перекресток. При подборе шаблонов нам нужно только определить, что мы хотим получить, а умножение подскажет, совпадает ли это.

* * *

Представьте себе стадион - такой же, как тот, где вы смотрите футбольный матч, - но на этом стадионе вместо кричащих болельщиков трибуны заполнены кричащими демонами. И кричат они не о футболистах на поле, а скорее об образе. Точнее, у каждого из этих демонов есть своя любимая буква алфавита, и когда он видит на поле что-то похожее на эту букву, он кричит. Чем громче крик, тем больше изображение на поле похоже на любимую букву демона. На небосклоне находится еще один демон. Этот демон не смотрит на поле и не кричит, а просто наблюдает за всеми остальными демонами на стадионе. Он находит демона, который кричит громче всех, и определяет, что изображение на поле должно быть любимой буквой этого демона.

Именно так Оливер Селфридж описал процесс подбора шаблонов на конференции 1958 года. Селфридж был математиком, компьютерщиком и помощником директора Линкольн-лабс в Массачусетском технологическом институте, исследовательского центра, занимавшегося вопросами применения технологий в сфере национальной безопасности. Сам Селфридж опубликовал не так много работ. Он также так и не закончил свою докторскую диссертацию (однако в итоге он написал несколько детских книг по адресу ; предположительно, в них было меньше демонов). Несмотря на отсутствие академических результатов, его идеи все же проникли в научное сообщество, во многом благодаря кругам, в которых он вращался. Получив степень бакалавра математики в Массачусетском технологическом институте в возрасте всего 19 лет, Селфридж получил консультацию в своей докторской работе от выдающегося математика Норберта Винера и поддерживал с ним связь. Селфридж также продолжал руководить Марвином Мински, выдающимся исследователем искусственного интеллекта из главы 3. А будучи аспирантом, Селфридж дружил с Уорреном Маккалохом и некоторое время жил с Уолтером Питтсом (вы наверняка помните эту пару нейробиотиков из главы 3). Селфриджу было полезно дать своим идеям повариться в этом социальном рагу из выдающихся ученых.

Чтобы сопоставить уникальную аналогию Селфриджа с концепцией подбора шаблонов, нужно просто представить, что каждый демон держит в руках свою сетку чисел, которая представляет собой форму его буквы. Они перемножают свою сетку с изображением, суммируют эти продукты (как описано выше) и кричат с громкостью, определяемой этой суммой. Селфридж не дает подробного объяснения, почему он решил дать такое демоническое описание визуальной обработки. Единственное, что он говорит по этому поводу, - это: "Мы не собираемся извиняться за частое использование антропоморфной или биоморфной терминологии. Они кажутся полезными словами для описания наших понятий".

Большая часть представлений в презентации Селфриджа была связана с тем, что подход к подбору шаблонов несовершенен. Демоны, каждый из которых по отдельности проверял, есть ли в поле зрения его любимая буква, были не очень эффективны. Каждый из них выполнял свои совершенно отдельные вычисления, но так не должно было быть. Многие фигуры, которые демон может искать в поисках своей буквы, используются и другими демонами. Например, и демон, предпочитающий букву "А", и демон, предпочитающий букву "Н", будут искать горизонтальную полоску. Так почему бы не ввести отдельную группу демонов, чьи шаблоны и крики соответствуют более базовым характеристикам изображения, таким как горизонтальные полосы, вертикальные линии, наклонные линии, точки и т. д. Тогда буквенные демоны будут просто слушать этих демонов, а не смотреть на сами изображения, и решать, как сильно кричать, в зависимости от того, кричат ли об основных формах их буквы.

Снизу вверх Селфридж определил новый стиль стадиона, который содержал три типа демонов: "вычислительные" (те, что смотрят на изображение и кричат об основных формах), "когнитивные" (те, что слушают вычислительных демонов и кричат о буквах) и "решающие" (те, что слушают когнитивных демонов и решают, какая буква присутствует). Селфридж дал название всей модели в целом - этой стопке вопящих демонов - Пандемониум5.

Если не принимать во внимание гнусную номенклатуру, интуиция Селфриджа в отношении обработки визуальной информации оказалась весьма проницательной. Хотя концептуально прост, подбор шаблонов практически сложен. Количество необходимых шаблонов растет с увеличением числа объектов, которые вы хотите обнаружить. Если каждое изображение нужно сравнивать с каждым фильтром, то вычислений будет очень много. Шаблоны также должны более или менее точно соответствовать изображению. Но из-за огромного количества различных световых картин, которые один и тот же объект может создавать на сетчатке глаза или объективе камеры, практически невозможно определить, как должен выглядеть каждый пиксель изображения при наличии того или иного объекта. Поэтому шаблоны очень сложно разрабатывать для любых, кроме самых простых, паттернов.

Эти проблемы делают подбор шаблонов сложной задачей как для искусственных зрительных систем, так и для мозга. Однако идеи, представленные в Pandemonium, представляют собой более распределенный подход, поскольку признаки, обнаруженные вычислительными демонами, являются общими для всех когнитивных демонов. Подход также является иерархическим. То есть Pandemonium разбивает проблему зрения на два этапа: сначала ищем простые вещи, затем - более сложные.

Вместе эти свойства делают систему в целом более гибкой. Например, если Pandemonium настроен на распознавание букв первой половины алфавита, то он вполне сможет распознать и остальные. Это связано с тем, что низкоуровневые вычислительные демоны уже знают, из каких базовых форм состоят буквы. Когнитивному демону новой буквы нужно будет просто понять, как правильно слушать демонов ниже него. Таким образом, элементарные признаки работают как словарь - или набор строительных блоков, - которые можно комбинировать и рекомбинировать для обнаружения дополнительных сложных паттернов. Без такой иерархической структуры и совместного использования низкоуровневых признаков базовый подход к подбору шаблонов должен был бы создавать новый шаблон для каждой буквы с нуля.

Дизайн Pandemonium вызывает некоторые вопросы. Например, как каждый вычислительный демон узнает, о какой базовой форме ему кричать? И как когнитивные демоны узнают, кого им следует слушать? Селфридж предлагает, чтобы система узнавала ответы на эти вопросы методом проб и ошибок. Если, например, изменение того, как демон, предпочитающий "А", слушает тех, кто ниже его по рангу, помогает ему лучше обнаруживать "А", то сохраните эти изменения; в противном случае не делайте этого и попробуйте что-нибудь новое. Или, если добавление вычислительного демона, который будет кричать о новом низкоуровневом паттерне, сделает всю систему лучше в обнаружении букв, то этот новый демон останется; в противном случае он уйдет. Конечно, это сложный процесс, и его работа не гарантирована, но когда он происходит, то создается желаемый эффект - система автоматически подстраивается под тип объектов, которые ей нужно обнаружить. Например, штрихи, из которых состоят символы японского алфавита, отличаются от штрихов английского алфавита. Самообучающаяся система обнаружит различные базовые паттерны для каждого из них. Не нужно никаких предварительных или специальных знаний, просто дайте модели попробовать справиться с задачей.

Ученый-компьютерщик Леонард Ур был настолько впечатлен идеями Селфриджа и его коллег, что захотел распространить их работу в более широком масштабе. В 1963 году он написал в журнале Psychological Bulletin, обращаясь к аудитории психологов, о том, каких успехов добились компьютерные ученые в области зрения. В своей статье "Компьютеры "распознавания образов" как модели восприятия формы" он указывает, что модели того времени "фактически уже были в состоянии предложить физиологические и психологические эксперименты" и даже предупреждает, что "было бы прискорбно, если бы психологи не играли никакой роли в этом теоретическом развитии своей собственной науки". Статья является конкретным доказательством того, что эти две области всегда были взаимосвязаны. Но такие явные публичные призывы к сотрудничеству не всегда были нужны. Иногда было достаточно личных отношений.

Джером Леттвин был неврологом и психиатром из Чикаго, штат Иллинойс. Он также был другом Селфриджа, в молодости жил с ним и Питтсом в одном доме. По собственному признанию, Леттвин был "тучным неряхой" и хотел стать поэтом, но уступил желанию матери и стал врачом. Самое бунтарское, что ему удалось, - это время от времени бросать медицинскую практику, чтобы заняться научными исследованиями.

Вдохновленный работой своего друга и бывшего сожителя, Леттвин в конце 1950-х годов отправился на поиски нейронов, реагирующих на низкоуровневые характеристики - то есть на те вещи, о которых кричат демоны вычислений. Животным, которое он выбрал для изучения, была лягушка. Лягушки используют зрение в основном для быстрой рефлекторной реакции на добычу или хищника, и поэтому их зрительная система относительно проста.