89,3 тыс подписчиков

Генератор изображений Kandinsky стал быстрее, умнее и удобнее

4 апреля 20244 апр 2024

161

1 мин

Разработчики Сбера презентовали обновление модели генерации изображений Kandinsky до версии 3.1. В сравнении с предшественницей она стала значительно быстрее, проще в использовании за счёт сокращения вводимого запроса, а также появилась возможность работы с уже имеющимися изображениями. В сравнении с Kandinsky 3.0 новую модель удалось ускорить почти в 20 раз — генерация происходит всего за четыре прохода через U-Net вместо 50 шагов ранее. На скорость повлиял тот факт, что нейросеть из диффузионной модели превратилась в GAN, обученную с хорошей начальной инициализацией весов после претрейна. Впрочем, ценой этого ускорения стало качество понимания текста. Чтобы уменьшить необходимость вводить слишком подробные текстовые запросы для получения детализированного изображения, разработчики встроили функцию бьютификации — способ улучшения и добавления деталей к запросу пользователя с помощью большой языковой модели (LLM). Фактически к описанию пользователя автоматически добавляется инструкция

В сравнении с Kandinsky 3.0 новую модель удалось ускорить почти в 20 раз — генерация происходит всего за четыре прохода через U-Net вместо 50 шагов ранее. На скорость повлиял тот факт, что нейросеть из диффузионной модели превратилась в GAN, обученную с хорошей начальной инициализацией весов после претрейна. Впрочем, ценой этого ускорения стало качество понимания текста.

Чтобы уменьшить необходимость вводить слишком подробные текстовые запросы для получения детализированного изображения, разработчики встроили функцию бьютификации — способ улучшения и добавления деталей к запросу пользователя с помощью большой языковой модели (LLM). Фактически к описанию пользователя автоматически добавляется инструкция с просьбой улучшить запрос.

Ещё одним улучшением стала возможность генерации изображения не только по текстовому запросу, но и/или с помощью визуальной подсказки в виде загружаемого изображения. Таким образом, можно редактировать и изменять уже имеющуюся картинку.

Было также улучшено восстановление изображения по исходному описанию, что позволяет заменять один объект на другой. Кроме того, появилась возможность получать изображения в разрешении 4K, для чего была обучена диффузионная модель повышения разрешения KandiSuperRes.

Подробнее о технической составляющей Kandinsky 3.1 можно почитать в блоге Сбера.

Творчество

527,7 тыс интересуются