Лума лабс сделали свою нано банану, тоже мультимодалка которая сначала рассуждает над вашими нездоровыми фантазиями, потом генерирует картинку и все это единый поток токенов Генерирует в 4К и может заапскейлить картинку С ней как я понял можно общаться свободно на естественном языки и она сама интерпретирует ваши желания и выстраивает логику сцены Понимает здравый смысл на уровне сцены, не нужно описывать каждую деталь, ну и еще может редактировать изображения Генерация на основе референсов с контролем, привязанным к источнику, можно передать персонажа, стиль или объект и модель воспроизведёт их в новом контексте Говорят понимает мемы По бенчмаркам модель превосходит GPT-Image-1, Банану и FLUX Max 🔘API (пока только вайтлист) txt2img (2048px) стоит $0,09 за картинку img2img (редактирование) стоит $0,093 1М тестовых токенов на вход стоит $0,5 1М картиночных токенов на вход $1,2 1М токенов картиночных на выход $45,45 Попробовать тут можно