Разработчики Stable Diffusion представили новую версию нейросети под названием Stable Cascade. Она не просто создаёт картинки по текстовому описанию, но и способна генерировать несколько вариаций одного изображения. Кроме того, она получила три полезные функции, которые значительно расширяют область её применения.
Stable Cascade отличается от Stable Diffusion структурой, состоящей из трёх разных моделей. Благодаря этому удалось отделить генерацию изображения на основе текста от декодирования картинки в пиксельном пространстве. Так появилась возможность настраивать результат с помощью дообучения модели, используя технологии ControlNet и LoRA. По словам разработчиков, новый метод обеспечивает 16-кратное снижение затрат ресурсов на обучение.
Stable Cascade может воссоздавать один и тот же объект в разных ракурсах или с небольшими изменениями. На входе может быть как текстовое описание, так и изображение. Генерация возможна и не с нуля — например, функция Inpainting/Outpainting позволяет дорисовывать изображение по выделенной маске, Canny Edge — рисовать по наброскам, а 2x Super Resolution — увеличивать масштаб фрагмента исходного изображения.
Вдобавок Stable Cascade работает быстрее Stable Diffusion XL (но медленнее Stable Diffusion XL Turbo). Размер модели оценивается в 10 млрд параметров против 23 млрд у Stable Diffusion XL. Клиентская часть новой нейросети доступна на GitHub и Hugging Face для свободного некоммерческого использования.