Компания Stability AI, производитель различных генеративных моделей ИИ и создатель моделей Stable Diffusion для преобразования текста в изображения, выпустила свою последнюю модель ИИ Stable Diffusion 3 (SD3) Medium.
Модель SD3 Medium, работающая на основе двух миллиардов параметров, является самой продвинутой моделью преобразования текста в изображение на сегодняшний день. Она может похвастаться такими возможностями, как создание высокореалистичных и детализированных изображений в широком диапазоне стилей и композиций. Она демонстрирует возможности работы со сложными подсказками, включающими пространные рассуждения, действия и различные художественные направления.
Инновационная архитектура модели, включающая 16-канальный вариативный автоэнкодер (VAE), позволяет ей преодолевать общие проблемы, с которыми сталкиваются другие модели, такие как точная визуализация реалистичных человеческих лиц и рук.
Кроме того, благодаря архитектуре Diffusion Transformer достигается исключительное качество текста с точным формированием букв, кернингом и интервалами. Модель не требует больших ресурсов и способна работать на графических процессорах потребительского класса без ущерба для производительности благодаря низкому объему занимаемой VRAM памяти.
Кроме того, она демонстрирует впечатляющие способности к тонкой настройке, позволяющие ей поглощать и воспроизводить нюансы из небольших наборов данных, что делает ее очень настраиваемой для конкретных случаев использования, которые могут возникнуть у пользователей.
Являясь моделью с открытым весом, она доступна для загрузки на HuggingFace и имеет библиотеки, оптимизированные как для NVIDIA TensorRT (все современные GPU NVIDIA), так и для AMD Radeon/Instinct GPU.