Найти тему
Леоновка: Наука 5.0

VASA-1 – программа, убившая правду

Лучше бы поющая рэп Джоконда была первоапрельской шуткой. Программисты открыли ящик Пандоры – теперь ИИ генерирует аутентичное видео, используя только одно ваше фото.

Мона Лиза, читающая рэп, - революция в анимации или начало хаоса?
Мона Лиза, читающая рэп, - революция в анимации или начало хаоса?

Не так давно любопытствующей интернет-общественности представили модель искусственного интеллекта, которая генерирует видео всего из одной фотографии. Вот так поет Джоконда Леонардо да Винчи. Кажется, это и не новость вовсе, но к ней важно присмотреться. Всего одна фотография, Карл?!

Называется эта чудесная программа - VASA-1. Если внимательно посмотреть ролики, которые размещены на сайте изобретателей, то волосы начинают шевелиться. Нейросеть оживляет всё, что может быть лицом. Хочешь, персонаж мультфильма, хочешь, культовую картину, хочешь, фото девушки из соседнего подъезда - оживляй, пожалуйста.

При этом ты можешь под любое изображение подобрать голос. «Васа» его изучит, совместит с изображением, уберёт шероховатости, и вот уже выбранный вами персонаж говорит то, что вы хотите, и как вы хотите: поёт, читает рэп, читает сказку и рассказывает анекдот.

Сходство с реальностью того, что происходит на представленных компанией MS видео, вызывает смешанные чувства. С одной стороны это искреннее восхищение программерами, умудрившимися это сделать таким похожим на правду, с другой – пугает. Пугает опасность, которая кроется в простоте создания аватаров, ведь в Голливуде очеловечиванием изображений не удивишь. Дело именно в простоте, которая теперь не требует миллиардных затрат на компьютерную графику для создания убедительных копий людей!

Специалисты изучили презентованные видео и, конечно, нашли много недостатков. Например, VASA-1 пока не умеет работать с изображением человеческих зубов и иногда грешит в движениях глаз. Присмотритесь, это видно даже без раскадровки, но все-таки безобидным прорывом в анимации это изобретение называть мы не можем.

Конечно, авторы технологии уверяют, что это лишь исследовательская демонстрация, и у них нет плана выпуска продукта или программного интерфейса, который бы мог мультиплицировать данный опыт. Но в мрачных прогнозах можно представить любые последствия.

Если фотографии людей, которые сейчас находятся в свободном доступе в интернете использовать с умыслом, любой известный до сегодняшнего момента дипфейк, покажется милой шуткой.

Вот как прокомментировал ролики профессор кафедры информационных технологий и управляющих систем Технологического университета им. А.А. Леонова Сергей Николаевич Шульженко:

«Искусственный интеллект может быть экзоскелетом для мозга. Нейросети помогают решать поставленные задачи человеком. Формулирование правильных целей в любом случае остаётся за нами.
Какую цель преследуют авторы «поющей Джоконды»? Если это здравая цель — показать возможности и какое-то дальнейшее возможное использование, направленное на развитие самого человека, то это вполне положительно. А если это обесценивание творчества, искусства, то есть цель нездравая, то, конечно, такие эксперименты вредоносны».

Ставь лайк, делай репост! Подписывайся на канал Технологического университета им. А.А. Леонова «Леоновка: Наука 5.0», чтобы читать интересные статьи из мира науки, современных технологий и человеческого любопытства.