579,1 тыс подписчиков

Стартап Luma представил умный генератор картинок Uni-1: бесплатный убийца Nano Banana

26 марта26 мар

2 мин

Компания Luma AI, которую раньше знали по видеогенератору Dream Machine, выпустила модель Uni-1. Она анализирует задачу, строит план сцены и только после этого берется за пиксели. Почти все известные генераторы, например Midjourney, Stable Diffusion, Google Imagen, работают диффузионным методом: берут случайный шум и постепенно «вычищают» из него картинку. Он дает красивые результаты, но не умеет рассуждать. Модель не понимает, что рисует, потому что она просто следует статистическим паттернам. Uni-1 устроен иначе, он авторегрессионный — генерирует изображение токен за токеном, точно так же, как языковые модели пишут текст. Текст и картинка существуют внутри одного потока данных, без передачи между двумя разными системами. Это убирает «шов» между пониманием и созданием, то самое место, где обычно теряется смысл сложного запроса. Google и OpenAI тоже пробовали сшить понимание с генерацией, но через костыли: GPT-4 переписывает промпт перед тем, как DALL-E его нарисует, а Luma убрал посре

Почти все известные генераторы, например Midjourney, Stable Diffusion, Google Imagen, работают диффузионным методом: берут случайный шум и постепенно «вычищают» из него картинку. Он дает красивые результаты, но не умеет рассуждать. Модель не понимает, что рисует, потому что она просто следует статистическим паттернам.

Uni-1 устроен иначе, он авторегрессионный — генерирует изображение токен за токеном, точно так же, как языковые модели пишут текст. Текст и картинка существуют внутри одного потока данных, без передачи между двумя разными системами. Это убирает «шов» между пониманием и созданием, то самое место, где обычно теряется смысл сложного запроса.

Google и OpenAI тоже пробовали сшить понимание с генерацией, но через костыли: GPT-4 переписывает промпт перед тем, как DALL-E его нарисует, а Luma убрал посредника.

Модель берет несколько отдельных фотографий питомцев и собирает из них единую сцену — с академическими мантиями, доской с формулами и логотипом Luma. Или берет один детский снимок пианиста и генерирует серию кадров, где он взрослеет — с одинаковым углом камеры и освещением на каждом этапе. Это задачи, которые раньше требовали ручного монтажа.

Еще важнее то, что Uni-1 сам проверяет результат, находит несоответствия с заданием и переделывает без участия человека. Такой цикл «сделал — проверил — исправил» был нормой для кодовых агентов, но в творческих инструментах появился впервые.

Модель Uni-1 понимает происходящее на рисунке и может точечно менять детали

На бенчмарке RISEBench, где проверяют логику, причинно-следственные связи и пространственное мышление, Uni-1 набирает 0.51 балла. Google Nano Banana 2 — 0.50, GPT Image 1.5 — 0.46. В категории «логическое рассуждение» разрыв резкий: Uni-1 — 0.32, GPT Image — 0.15.

По распознаванию объектов (ODinW-13) Uni-1 набирает 46.2 mAP против 46.3 у Google Gemini 3 Pro — практически вровень с флагманом. При этом версия модели без генерации изображений показывает 43.9. Разница в 2.3 балла доказывает: умение рисовать делает модель умнее в понимании картинок.

Одно изображение в разрешении 2048 пикселей через API обходится в 0.09 долларов (примерно 7,24 рублей). Google Nano Banana 2 берет 0.101долларов (примерно 8,13 рублей), Nano Banana Pro — 0.134 долларов (примерно 10,79 рублей). Разница на первый взгляд небольшая, но при генерации тысяч изображений в месяц экономия становится существенной.

Модель поддерживает 76 художественных стилей, принимает скетчи как входные данные и работает с несколькими языками. API пока открывается постепенно, но веб-версия уже доступна всем.

Также стало известно, что OpenAI готовит «суперприложение» для ПК. Подробности в статье.