Найти тему
Фьюз

Вдохновленный "Сайнфелдом": Google представляет новую модель ИИ для генерации изображений

Исследователи из UC Berkeley и Google демонстрируют новый метод для генеративного ИИ, который может заменить модели диффузии.

Генеративные модели ИИ, такие как GAN (генеративно-состязательные сети), модели диффузии или, в последнее время, модели консистентности, генерируют изображения, отображая входные данные, такие как случайный шум, эскиз или изображение низкого разрешения или иным образом поврежденное, в выходные данные, которые соответствуют заданному целевому распределению данных, обычно естественных изображений. Модели диффузии, например, делают это, "денойзингом" изображение в несколько этапов, изучая целевое распределение данных во время тренировки.

Теперь исследователи из UC Berkeley и Google представляют новую генеративную модель, называемую "Идемпотентные Генеративные Сети" (ИГС), которая учится в процессе обучения генерировать подходящее изображение из любого вида входных данных, идеально в один шаг. Предлагаемый метод предназначен для того, чтобы быть "глобальным проектором", который проецирует любые входные данные на целевое распределение данных и, в отличие от других методов, не ограничен конкретными входными данными. Кстати, команда приводит сцену из "Сайнфелда" в качестве вдохновения для работы, что подытоживает одноименную концепцию идемпотентных операторов. Идемпотентные генеративные сети показывают потенциал в первом исследовании ИГС отличаются от GAN и моделей диффузии в двух важных аспектах: в отличие от GAN, которым требуются отдельные генератор и дискриминатор, ИГС "самостоятельно-состязательные" - они выполняют обе роли. В отличие от моделей диффузии, которые выполняют поэтапные шаги, ИГС пытаются отобразить входные данные на распределение данных в один шаг.

Исследователи демонстрируют потенциал ИГС, используя наборы данных MNIST и CelebA. Команда показывает применения, такие как превращение эскиза в фотореалистичное изображение, генерация изображения из шума или восстановление поврежденного изображения. Хотя качество изображения пока не является эталонным, примеры показывают, что метод работает, позволяет простые манипуляции, такие как добавление гарнитуры к лицу, и может обрабатывать любые входные данные, такие как эскизы или поврежденные изображения.

Google исследует, как масштабировать новый метод генеративного ИИ ИГС могут быть значительно более эффективными при выводе, поскольку они производят свои результаты за один шаг после обучения.