544 подписчика

Генеративные нейросети. Новая SANA, убийца FlUX'а?

29 октября 202429 окт 2024

7 мин

Здравствуйте, дорогие друзья! С огромным интересом я следил за недавним анонсом новой нейросети Sana, созданной при сотрудничестве компании NVIDIA, Массачусетского технологического института и Университета Цинхуа. Как заявляют разработчики, Sana — это инновационный фреймворк для преобразования текста в изображения, способный генерировать изображения с разрешением до 4096×4096 пикселей. Sana не только создает высококачественные изображения с сильной согласованностью между текстом и изображением (text2img), но и делает это с удивительной скоростью, подходящей для использования даже на ноутбуках с дискретной графикой. Вы можете найти более подробную информацию на сайте и там же запустить Demo-режим и "пощупать" новую модель сами. Я же постараюсь вам кратко описать основные моменты заслуживающие внимания. Если не вдаваться в технические детали, то можно сказать, что новая модель обладает преимуществами, которые раньше отсутствовали в других моделях. В Sana применяется линейное внимание (L

Здравствуйте, дорогие друзья!

С огромным интересом я следил за недавним анонсом новой нейросети Sana, созданной при сотрудничестве компании NVIDIA, Массачусетского технологического института и Университета Цинхуа.

Как заявляют разработчики, Sana — это инновационный фреймворк для преобразования текста в изображения, способный генерировать изображения с разрешением до 4096×4096 пикселей. Sana не только создает высококачественные изображения с сильной согласованностью между текстом и изображением (text2img), но и делает это с удивительной скоростью, подходящей для использования даже на ноутбуках с дискретной графикой.

Вы можете найти более подробную информацию на сайте и там же запустить Demo-режим и "пощупать" новую модель сами. Я же постараюсь вам кратко описать основные моменты заслуживающие внимания.

Если не вдаваться в технические детали, то можно сказать, что новая модель обладает преимуществами, которые раньше отсутствовали в других моделях.

В Sana применяется линейное внимание (Linear DiT) вместо стандартного квадратичного, что делает его более эффективным при высоких разрешениях без потери качества. Механизм Mix-FFN с 3×3 глубинной сверткой в многослойном перцептроне (MLP) усиливает локальную информацию токенов. Это позволяет достигать сопоставимых результатов с обычным вниманием, сокращая задержку на 1,7 раза при генерации 4K изображений.

Sana использует Gemma, компактную большую языковую модель (LLM), которая выступает в роли текстового энкодера. В отличие от более массивных моделей, таких как CLIP или T5, Gemma при более скромных размерах обеспечивает лучшее понимание текста и более точное следование инструкциям. Это позволяет улучшить согласованность между текстом и изображением, решая проблемы нестабильности обучения.

В Sana используется Flow-DPM-Solver. Этот метод уменьшает количество шагов, необходимых для генерации изображений, что ускоряет процесс и делает его более эффективным. В результате Sana может генерировать изображения с меньшим количеством шагов, существенно сокращая время генерации без ущерба для качества.

Sana при работе использует интеллектуальные алгоритмы для автоматической маркировки изображений и выбора соответствующих текстовых описаний, что ускоряет процесс обучения и улучшает соответствие текстовых запросов сгенерированным изображениям.

Как обычные пользователи, что мы получаем от этого спросите вы.

В первую очередь естественно это улучшенное качество изображений при меньшем времени генерации. Генерация происходит быстро и в высоком разрешении, при этом качество не страдает, даже на менее мощных устройствах.

Ну и исходя из заверений разработчиков, думаю нас ждёт ещё более точное следование инструкциям\запросам. Улучшенное понимание текстовых запросов позволит нам создавать изображения более предсказуемо, с меньшим количеством ошибок. Соответствие между текстом и изображением становится более точным, что повышает точность работы.

Разработчики сравнили Sana с передовыми диффузионными моделями для преобразования текста в изображение. На разрешении 512×512 пикселей Sana-0.6 демонстрирует производительность, которая в 5 раз выше, чем у PixArt-Σ, и превосходит его по ключевым метрикам, таким как FID, Clip Score, GenEval и DPG-Bench. На разрешении 1024×1024 пикселей Sana значительно превосходит большинство моделей с менее чем 3 миллиардами параметров, демонстрируя меньшие задержки в процессе инференса. Хотя по точности на DPG-Bench результаты могут быть сопоставимы или немного ниже, пропускная способность Sana-0.6B в 39 раз выше, а Sana-1.6B — в 23 раза выше.

Однако, несмотря на все эти впечатляющие результаты, я не склонен верить громким заявлениям. Лучший способ оценить модель — это попробовать её в деле. Поэтому я приведу несколько примеров генерации, без комментариев, чтобы каждый мог оценить результаты генераций по своим критериям.

Я намеренно не тратил время на генерацию более удачного изображения. Все изображения ниже это результаты одной (самой первой) генерации после загрузки модели в интерфейс.

Параметры генерации Sana по умолчанию: Height 1024, Width 1024, Sampling steps 20, CFG Guidance Scale 5, PAG Guidance scale 2

Параметры генерации Flux: модель FluxFusionDS_NF4, без лоры, Height 1024, Width 1024, Sampling steps 20, CFG 3.5

Промпт: Full body, cute girl pin up art, a lace character, smirk expression, giant enormous sun,ornaments spiral,and waves, triple exposure, watercolor wash, immaculate composition

---------------------------------------------------------------------------------------------

Промпт: A picturesque and tranquil snow scene with a touch of warmth. Soft, delicate snowflakes are falling, gently blanketing the ground, and trees are dusted with a light layer of snow. In the distance, a cozy cabin with a welcoming fireplace is visible amidst the pristine white landscape. A pair of deer gracefully graze in the snow-covered meadow, adding a serene touch to the scene. The overall atmosphere of the image is calm and inviting, perfect for a moment of peace and reflection.

---------------------------------------------------------------------------------------------

Промпт: (Dark photo with contrasting vividly colored light filling key details of figure and hair:1.1) Medium format photo, RAW photo, (backlit silhouette of woman along the coastline:1.2), (vibrant and vivid temporal storm in the early morning hours), masterpiece, highly detailed, 8K

---------------------------------------------------------------------------------------------

Промпт: A striking watercolor portrait, young woman sporting dark pigtails, gazing with hazel eyes outlined by long lashes, full lips lightly touched with natural makeup, adorned with neon pink glasses casting a radiant glow, subtle metallic gleam from a nose ring, juxtaposed against a chaotic alcohol and ink background that drips artistically, digital painting, vivid colors, high detail, dramatic lighting.

---------------------------------------------------------------------------------------------

Промпт: A vibrant cartoon illustration depicts a young girl in mid-air, captured at the exact moment her legs stretch apart in a dramatic 'V' shape. The girl has voluminous light brown hair styled into two large pigtails, each adorned with a large pink bow featuring white polka dots. Her face is animated with an exaggerated wide smile, revealing bright blue eyes and rosy cheeks. She wears a white T-shirt with colorful graphics including cartoon characters and text such as 'Princess', frayed denim shorts, black Converse sneakers with white soles, pink socks, and pink ankle-high socks. Her arms are outstretched, emphasizing her joyful expression. Below her, a small Chihuahua dog with white and tan markings stands attentively on a multicolored cobblestone path, looking up at her. The background features a lush meadow filled with numerous white daisies with yellow centers, creating a cheerful and whimsical atmosphere. The sky transitions from a soft blue at the top to a warmer hue near the horizon, suggesting late morning or early afternoon. The overall composition is centered around the girl, with the playful scene enhanced by the high contrast, vivid colors, and bright lighting typical of digital illustrations, resulting in a dynamic and lively image that embodies childlike wonder and joy.

---------------------------------------------------------------------------------------------

И если с изображениями дела обстоят еще более менее, то с текстами, надписями и логотипами не все гладко и Demo версия не может похвастаться тем, что генерировал нам Flux на момент выхода модели в "люди".

При создании изображений большого размера мы сталкиваемся с проблемой неконтролируемого увеличения количества объектов или даже с появлением кадров, похожих на сцены из фильмов ужасов, как это было с моделями SD и SDXL.

В заключение могу сказать, что лично у меня нет «вау» эффекта от генераций в Sana. Да, некоторые "стили и направления" она "отрабатывает" весьма достойно, и, безусловно, стоит отметить важный в современных реалиях фактор — быстрое время генерации. Но, как и у большинства её предшественников, не обошлось без типичных проблем: болезнь «3-4-6 пальцев», кривые руки, искажения носов и лиц. С надписями, текстом и логотипами также все неоднозначно мягко говоря, часто результат получается совершенно не таким, как ожидалось. Справедливости ради, стоит отметить, что это всего лишь DEMO. И неизвестно, что будет дальше, уверенный шаг в развитии генеративного ИИ или очередная пустышка. Время покажет.

Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал (как зайти в дискорд без проблем и не только в дискорд вы можете почитать в моем телеграмме) и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.