Обзор редактора картинок тестом Flux Kontext Dev от BFL. Подробнее про сам Kontext и его облачные версии я писал тут, а этот пост сконцентриуется на тестах опенсорсной версии Dev.
На релизе нам доступно два воркфлоу: одно для поэтапного редактирования картинки в виде изменения объектов, смены ракурса и освещения, или переноса объекта/стиля с рефа, а другое для объединения персонажей с разных картинок на одно изображение.
В обоих случаях стоит помнить, что Kontext заточена под последовательное редактирование короткими промтами. Подразумевается, что вы будете дробить общую задачу на более мелкие. Сгенерили нужное изменение — нажали refresh, и картинка подаётся на вход вместо оригинала. И так далее в глубину.
Но вместе с этим могут начать вклиниваться и нежелательные элементы: снижение разрешения, смещение цветов, итд. Так, что в идеале целевой контент должен быть на расстоянии 1 изменения от оригинала.
Поэтому очень важно писать промт в нужном формате для модели. Kontext очень капризная в этом плане: ей нужны и по-человечески простые короткие инструкции, и машинные тригеры с чётким описанием что заменить на что. Есть гайд по промтингу от самих BFL и от Comfy, очень помогает.
На картинках с таким подходом кожа выглядит отлично, без пластика, лицо и тело переносятся максимально близко к оригиналу, а детали вроде татуировок и аксессуаров улавливаются просто супер. Ощущается, что модель заточена под коммерческий контент, ибо одежду на персонажах она меняет на ура и удерживает детали принтов даже при смене стиля и угла обзора. Вместе с этим BFL упростили получение лицензии на коммерческое использование.
Также Comfy добавили фичу быстрого создания новой групповой ноды, чтобы можно было реще собрать витиеватое воркфлоу для поэтапного изменения контента и упрощения навигации по векторам развития сюжета.
Теперь к тестам Dev модели на 4090. Есть FP8 и есть BF16 версии.
FP8 влезает в 20 ГБ VRAM, пикуя до 22 ГБ. Генерит и следует промту хорошо, но видна пожатость изображения, детализация слабее, и она чаще отходит от оригинального лица.
24 сек на 1024х1024 в 20 шагов // воркфлоу редактирования
26 сек на 1635х1243 в 20 шагов // воркфлоу объединения
BF16 занимает 23,6 ГБ VRAM, не забивая её до отказа, и заходя в оперативку на десяток другой гигов с общим потреблением ~32 ГБ RAM. Здесь сетки уже не видно, картинка плавная и чёткая, а промту следует ещё лучше. Разница по скорости с fp8 в пару секунд, а по качеству она видна на глаз — если есть 24 ГБ VRAM, запускаем BF16 без оглядки.
28 сек на 1024х1024 в 20 шагов // воркфлоу редактирования
35 сек на 1635х1243 в 20 шагов // воркфлоу объединения
На 5090 при тех же параметрах редактирование 18 сек занимает.
Тут ещё и ускорение через ноду OpenVINO подъехало.
Тренировку я ещё не тестировал, но вы можете посмотреть на эту тему заметки от разрабов Comfy с их стрима, где они сравнивают Kontext и OmniGen2.
В один пост все не вместилось — далее будут наблюдения и замечания.
Хаггинг (FP8)
Хаггинг (BF16)
Гайд по промтингу (BFL)
Гайд по промтингу (Comfy)