Изменить стиль страницы

ЛеКун и его коллеги-исследователи представили впечатляющие результаты работы своей модели, обученной на тысячах цифр Буффало, в 1989 году. Так родилась "конволюционная нейронная сеть" - название, данное этому стилю модели.

Как и подходы, основанные на подборе шаблонов, которые появились до них, конволюционные нейронные сети нашли применение в реальном мире. В 1997 году эти сети стали основной частью программного обеспечения, разработанного компанией AT&T для автоматизации обработки чеков в банках Америки. К 2000 году, по оценкам, от 10 до 20 процентов чеков в Америке обрабатывались с помощью этого программного обеспечения. Очаровательный пример того, как наука исполняет свое предназначение, - мечта Голдберга об оснащении банков синтетическими визуальными системами сбылась спустя 70 лет после изобретения микрофильмирующей машины

Метод обучения сверточных нейронных сетей требователен к данным, и модель может быть настолько хороша, насколько хороша та информация, которая в нее поступает. Поэтому не менее важно получить правильную модель, чем правильные данные. Именно поэтому так важно было собрать реальные образцы реальных цифр, написанных реальными людьми. Исследователи Bell Lab могли бы поступить так же, как Фукусима, и создать компьютерные изображения цифр. Но они вряд ли смогли бы передать все разнообразие, нюансы и небрежность написания цифр в реальной жизни. Письма, прошедшие через почтовое отделение в Буффало, содержали около 10 000 примеров настоящего, человеческого почерка, что дало модели все необходимое для настоящего обучения. Убедившись в важности реальных данных, компьютерщики стали собирать их еще больше. Вскоре после набора Buffalo был собран набор данных, содержащий в шесть раз больше цифр и названный MNIST. Удивительно, но этот набор данных по-прежнему остается одним из наиболее часто используемых для быстрого тестирования новых моделей и алгоритмов искусственного зрения. Цифры для MNIST были написаны школьниками из Мэриленда и участниками переписи населения США. И хотя авторам было сказано, для чего используются их цифры в данном случае, они почти наверняка не ожидали, что их почерк будет использоваться компьютерными учеными спустя 30 лет.

Испытания конволюционных нейронных сетей не остановились на цифрах, но при переходе к более сложным изображениям они столкнулись с трудностями. В начале 2000-х годов сети, подобные сетям ЛеКуна, были обучены на другом наборе данных из 60 000 изображений, на этот раз состоящих из объектов. Изображения были маленькими и зернистыми - всего 32x32 пикселя - и могли представлять собой самолеты, автомобили, птиц, кошек, оленей, собак, лягушек, лошадей, корабли или грузовики. Хотя для нас эта задача оставалась простой, для сетей она серьезно усложнилась. Вся неоднозначность, присущая распознаванию трехмерного мира на основе двухмерных данных, проявляется, когда используются реальные изображения реальных объектов. Те же модели, которые научились распознавать цифры, с трудом справлялись с этими более реалистичными изображениями. Этот подход к искусственному зрению, похожий на мозговой, не справлялся с базовой визуальной обработкой, которую мозг выполняет каждый день.

Однако в 2012 году ситуация изменилась, когда Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон из Университета Торонто с помощью конволюционной нейронной сети победили в крупном конкурсе по распознаванию изображений ImageNet Large Scale Visual Recognition Challenge. Конкурс заключался в маркировке изображений - больших (224x224 пикселя), реальных фотографий, сделанных людьми по всему миру и взятых с таких сайтов, как Flickr, - на предмет их принадлежности к одной из тысячи возможных категорий объектов. В этом очень убедительном тесте на визуальные способности конволюционная нейронная сеть дала 62 процента правильных ответов, опередив алгоритм, занявший второе место, на 10 процентных пунктов.

Как команда из Торонто добилась таких успехов? Они открыли новые вычисления, необходимые для зрения? Нашли ли они волшебную технику, помогающую модели лучше изучать свои связи? Правда в данном случае гораздо банальнее. Разница между этой конволюционной нейронной сетью и теми, что были до нее, заключалась в основном в размере. Сеть команды из Торонто насчитывала в общей сложности более 650 000 искусственных нейронов - примерно в 80 раз больше, чем сеть ЛеКуна, распознающая цифры. Эта сеть была настолько велика, что потребовались некоторые хитроумные инженерные решения, чтобы поместить модель в память компьютерных чипов, которые использовались для ее работы. Модель была велика и в другом отношении. Все эти нейроны означали, что для обучения связей между ними требовалось гораздо больше данных. Модель обучалась на 1,2 миллионах помеченных изображений, собранных профессором информатики Фей-Фей Ли в рамках базы данных ImageNet.

В 2012 году наступил переломный год для конволюционных нейронных сетей. Хотя технически достижения команды из Торонто были всего лишь количественным скачком - увеличением числа нейронов и изображений, - ошеломляющее повышение производительности качественно изменило ситуацию в этой области. Увидев, на что они способны, исследователи начали изучать конволюционные нейронные сети и пытаться сделать их еще лучше. Обычно это происходило в том же направлении: они становились больше, но были найдены и важные изменения в их структуре и способах обучения.

К 2015 году конволюционная нейронная сеть достигла уровня производительности, ожидаемого от человека в соревновании по классификации изображений (что на самом деле не является 100-процентным показателем: некоторые изображения могут быть запутанными). И теперь конволюционные нейронные сети составляют основу практически любого программного обеспечения для обработки изображений: распознавание лиц в социальных сетях, обнаружение пешеходов в самоуправляемых автомобилях и даже автоматическая диагностика заболеваний по рентгеновским снимкам. В забавном случае конволюционные нейронные сети даже использовались неврологами для автоматического определения местоположения нейронов на снимках тканей мозга. Искусственные нейронные сети теперь смотрят на настоящие.

Похоже, инженеры сделали разумный ход, обратившись к мозгу за вдохновением для создания визуальной системы. Внимание Фукусимы к функциям нейронов - и сведение этих функций к простым операциям - принесло свои плоды. Но когда он делал первые шаги в разработке этих моделей, вычислительных ресурсов и данных для их создания просто не было. Спустя десятилетия следующее поколение инженеров подхватило проект и довело его до конца. В результате современные конволюционные нейронные сети наконец-то могут решать многие задачи, которые изначально ставились в летнем проекте Массачусетского технологического института в 1966 году.

Но так же, как "Пандемониум" Селфриджа помог вдохновить нейробиологов-визуалистов, отношения между конволюционными нейронными сетями и мозгом не ограничиваются только одним путем. Неврологи получают выгоду от усилий, которые компьютерные ученые прилагают к созданию моделей, способных решать реальные визуальные задачи. Это связано с тем, что большие, тщательно обученные конволюционные нейронные сети не только хорошо распознают объекты на изображениях, но и предсказывают, как мозг будет реагировать на эти изображения.

* * *

Обработка зрительных сигналов начинается в первичной зрительной коре - именно там Хьюбел и Визель делали свои записи, - но после этого в процесс вовлекается множество областей. Первичная зрительная кора посылает связи во (вы уже догадались) вторичную зрительную кору. И после еще нескольких пересылок информация попадает в височную кору, расположенную сразу за висками.

Височная кора головного мозга уже давно связана с распознаванием объектов. Еще в 1930-х годах исследователи заметили, что повреждение этой области мозга приводит к странному поведению. Пациенты с повреждением височной коры плохо решают, на какие вещи важно обратить внимание, и поэтому легко отвлекаются. Они также не проявляют нормальной эмоциональной реакции на изображения; они могут видеть картины, которые большинству людей показались бы ужасающими, и почти не моргать. А когда они хотят изучить предметы, они могут не смотреть на них, а класть их в рот.

Понимание этой области мозга уточнялось десятилетиями тщательного наблюдения за пациентами или животными с поражениями мозга и, в конечном счете, путем регистрации активности ее нейронов. Это привело к выводу, что подчасть височной коры - "нижняя" часть в нижней части, также называемая "ИТ", - является основным местом для понимания объектов. У людей с повреждением ИТ в основном нормальное поведение и зрение, но есть более специфическая проблема - они не могут правильно называть или распознавать объекты; например, они могут не узнавать лица друзей или путать идентичность предметов, которые кажутся похожими.

Соответственно, нейроны в этой области реагируют на объекты. Некоторые нейроны имеют четкие предпочтения: один может реагировать на часы, другой - на дом, третий - на банан и т. д. Но другие клетки менее предсказуемы. Они могут предпочитать части объектов или одинаково реагировать на два разных объекта, имеющих некоторые общие черты. Некоторым клеткам также важен угол, под которым виден объект: возможно, они больше всего реагируют, если объект виден прямо, но другие клетки более снисходительны и реагируют на объект практически под любым углом. Некоторым важен размер и расположение объекта, другим - нет. В общем, ИТ - это целый мешок нейронов, заинтересованных в объектах. Хотя их не всегда легко интерпретировать, такие реакции, ориентированные на объекты, делают ИТ похожим на вершину иерархии зрительных процессов, последнюю остановку на экспрессе зрительной системы.