Разработчики Сбера презентовали обновление модели генерации изображений Kandinsky до версии 3.1. В сравнении с предшественницей она стала значительно быстрее, проще в использовании за счёт сокращения вводимого запроса, а также появилась возможность работы с уже имеющимися изображениями. В сравнении с Kandinsky 3.0 новую модель удалось ускорить почти в 20 раз — генерация происходит всего за четыре прохода через U-Net вместо 50 шагов ранее. На скорость повлиял тот факт, что нейросеть из диффузионной модели превратилась в GAN, обученную с хорошей начальной инициализацией весов после претрейна. Впрочем, ценой этого ускорения стало качество понимания текста. Чтобы уменьшить необходимость вводить слишком подробные текстовые запросы для получения детализированного изображения, разработчики встроили функцию бьютификации — способ улучшения и добавления деталей к запросу пользователя с помощью большой языковой модели (LLM). Фактически к описанию пользователя автоматически добавляется инструкция