Найти в Дзене

Stable Diffusion 3.0 представляет новую архитектуру для преобразования текста в изображение поколения AI

Стабильный искусственный интеллект (создан с помощью Stable Diffusion 3.0) Stability AI представляет предварительный просмотр своей флагманской модели искусственного интеллекта следующего поколения Stable Diffusion 3.0 для преобразования текста в изображение.
За последний год Stable AI постоянно совершенствовал и выпускал множество моделей изображений, каждая из которых демонстрирует все более высокий уровень сложности и качества. В июльском выпуске SDXL базовая модель Stable Diffusion была значительно улучшена, и теперь компания намерена пойти значительно дальше.
Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и более высокую производительность при генерации изображений на основе многосубъектных подсказок. Она также обеспечит значительно лучшую типографику, чем предыдущие модели Stable Diffusion, что позволит более точно и согласованно писать внутри создаваемых изображений. Типографика в прошлом была слабой стороной Stable Diffusion, над которой

Стабильный искусственный интеллект (создан с помощью Stable Diffusion 3.0)

-2

Stability AI представляет предварительный просмотр своей флагманской модели искусственного интеллекта следующего поколения Stable Diffusion 3.0 для преобразования текста в изображение.
За последний год Stable AI постоянно совершенствовал и выпускал множество моделей изображений, каждая из которых демонстрирует все более высокий уровень сложности и качества. В июльском выпуске SDXL базовая модель Stable Diffusion была значительно улучшена, и теперь компания намерена пойти значительно дальше.
Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и более высокую производительность при генерации изображений на основе многосубъектных подсказок. Она также обеспечит значительно лучшую типографику, чем предыдущие модели Stable Diffusion, что позволит более точно и согласованно писать внутри создаваемых изображений. Типографика в прошлом была слабой стороной Stable Diffusion, над которой конкуренты, включая DALL-E 3, Ideogram и Midjourney, также работали в последних выпусках. Stable Diffusion AI создает Stable Diffusion 3.0 с различными размерами моделей от 800 м до 8B с параметрами.Stable Diffusion 3.0 - это не просто новая версия модели, которую уже выпустил Stability AI, она фактически основана на новой архитектуре.
“Stable Diffusion 3 - это диффузионный преобразователь, новый тип архитектуры, аналогичный той, что использовалась в недавней модели OpenAI Sora”, - сказал VentureBeat Эмад Мостак, генеральный директор Stability AI. “Это настоящий преемник оригинальной Stable Diffusion”.
Диффузионные преобразования и согласование потоков откроют новую эру генерации изображений Stable AI экспериментирует с несколькими типами подходов к генерации изображений. Ранее в этом месяце компания выпустила предварительный просмотр Stable Cascade, который использует архитектуру Würstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные преобразователи. “У Stable Diffusion раньше не было преобразователя”, - сказал Мостак.
Трансформеры лежат в основе большей части революции gen AI и широко используются в качестве основы моделей генерации текстов. Генерация изображений в значительной степени относится к области диффузионных моделей. В исследовательском документе, в котором подробно описываются диффузионные преобразователи (DiTs), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет обычно используемую магистраль U-Net трансформатором, работающим со скрытыми участками изображения. Подход DiTs позволяет более эффективно использовать вычисления и может превзойти другие формы диффузионной генерации изображений. Другое крупное новшество, от которого выигрывает Stable Diffusion, - это согласование потоков.
В исследовательской статье о сопоставлении потоков объясняется, что это новый метод обучения непрерывных нормализующих потоков (CNF) для моделирования сложных распределений данных. По мнению исследователей, использование сопоставления условных потоков (CFM) с оптимальными транспортными путями приводит к более быстрому обучению, более эффективной выборке и лучшей производительности по сравнению с диффузионными путями.
Stable Diffusion научился писать по буквам
Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. “Это благодаря как архитектуре transformer, так и дополнительным кодировщикам текста”, - сказал Мостак. “Теперь возможны полные предложения, как и coherent style”.
Хотя Stable Diffusion 3.0 изначально демонстрируется как технология преобразования текста в изображение поколения искусственного интеллекта, она станет основой для гораздо большего. В последние месяцы стабильный ИИ также развивает возможности генерации 3D-изображений, а также генерации видео. “Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям”, - сказал Мостак. “Это серия моделей разных размеров, которые лягут в основу разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое”.