Tencent: выпустили генератор картинок Хуньянь Image 3. Это авторегрессивная мультимодальная модель, которая обладает пониманием мира, может рассуждать по визуалу, и создавать комплексные многоходовые картинки с подписями на английском и китайском. Например, может объяснять на мемах законы физики. Имеет MoE архитектуру из 64 экспертов с 80B параметрами, из которых 13B активных. Соответственно в домашнюю печку оное целиком не влезет, рекомендуется 4x80ГБ VRAM. Либо очень долго на 12-16 ГБ VRAM обрабатывать проход каждого эксперта отдельно. Есть демка на хаггинге, чтобы оное вообще заценить. Правда больше 2 картинок сгенерить там не получается. Судя по ним промту следует хорошо, но только результаты какие-то уж очень шумные, с проблемной структурой и анатомией. На официальных примерах всё причёсанное. Есть ещё демка на сайте Tencent, может там будет лучше. Демо (хаггинг) Демо (сайт) Хаггинг Гитхаб