Сегодня нейронные сети способны эффективно распознавать изображения, даже если, например, на фото закрашено лицо. Однако в отношении предсказания действий в ближайшие секунды, глядя на снимок, у искусственного интеллекта пока остаются сложности. Для решения этой задачи разработчики из Массачусетского технологического института применили генеративные конкурирующие сети (GAN, generative adversarial networks), состоящие из двух нейронных сетей: генератора и дискриминатора. Принцип работы заключается в стремлении генератора обмануть дискриминатор, создавая неотличимые от настоящих образцы видео. То есть одна сеть старается производить подделки, а вторая - различать их.
Для обучения нейронной сети было использовано два миллиона видео изображений с Flickr, на которых отображались 4 разновидности сцен: поезд прибывает на вокзал, игра в гольф, младенцы в больнице и пляж. Никакой дополнительной информации к видео не прилагалось. Алгоритм сам учился распознавать сцены, тем самым понимая, какие события свойственны для различных категорий сцен. В результате на вход алгоритму подавался статичный кадр, а на выходе получалось видео, являющееся продолжением данного изображения. Таким образом, искусственный интеллект научился делать секундные ролики, имеющие разрешение 64х64 пикселя и напоминающие «ожившие фото».
Получившиеся видео можно посмотреть здесь.