Компания Luma AI, которую раньше знали по видеогенератору Dream Machine, выпустила модель Uni-1. Она анализирует задачу, строит план сцены и только после этого берется за пиксели. Почти все известные генераторы, например Midjourney, Stable Diffusion, Google Imagen, работают диффузионным методом: берут случайный шум и постепенно «вычищают» из него картинку. Он дает красивые результаты, но не умеет рассуждать. Модель не понимает, что рисует, потому что она просто следует статистическим паттернам. Uni-1 устроен иначе, он авторегрессионный — генерирует изображение токен за токеном, точно так же, как языковые модели пишут текст. Текст и картинка существуют внутри одного потока данных, без передачи между двумя разными системами. Это убирает «шов» между пониманием и созданием, то самое место, где обычно теряется смысл сложного запроса. Google и OpenAI тоже пробовали сшить понимание с генерацией, но через костыли: GPT-4 переписывает промпт перед тем, как DALL-E его нарисует, а Luma убрал посре
Стартап Luma представил умный генератор картинок Uni-1: бесплатный убийца Nano Banana
26 марта26 мар
27
2 мин