Найти в Дзене

Как далеко можно зайти с ImageNet в text2img

? 🖼️ Перед сном залип на статью, где ребята смогли выжать из ImageNet качество text2img, сравнимое с SDXL. Это круто, потому что ImageNet — это всего 0.001B картинок с метками классов, а SDXL училась на датасете в 5B+. Как они это сделали? С помощью аугментаций, но не просто каких-то, а специально заточенных под text2img. Почему это сложно? 🤔 Обычные аугментации, вроде флипов или поворотов, могут убить качество генерации и промпт-алаймент. Авторы предлагают два типа аугментаций: 1. Текста: Берут метки классов, делают из них короткие описания, а потом расширяют их с помощью LLaVA, генерируя разные длинные промпты. 📝 2. Картинок: Используют CutMix — берут картинку и в рандомное место вставляют другую картинку из датасета. Звучит топорно, но тут есть ньюанс. 🎯 Как работает CutMix ? 🛠️ Диффузионные модели генерируют картинку из шума за N шагов. Авторы предлагают применять CutMix только на больших шагах, когда картинки сильно зашумлены. Так модель не видит артефактов от грубого нал

Как далеко можно зайти с ImageNet в text2img ? 🖼️

Перед сном залип на статью, где ребята смогли выжать из ImageNet качество text2img, сравнимое с SDXL. Это круто, потому что ImageNet — это всего 0.001B картинок с метками классов, а SDXL училась на датасете в 5B+. Как они это сделали? С помощью аугментаций, но не просто каких-то, а специально заточенных под text2img.

Почему это сложно? 🤔

Обычные аугментации, вроде флипов или поворотов, могут убить качество генерации и промпт-алаймент. Авторы предлагают два типа аугментаций:

1. Текста: Берут метки классов, делают из них короткие описания, а потом расширяют их с помощью LLaVA, генерируя разные длинные промпты. 📝

2. Картинок: Используют CutMix — берут картинку и в рандомное место вставляют другую картинку из датасета. Звучит топорно, но тут есть ньюанс. 🎯

Как работает CutMix ? 🛠️

Диффузионные модели генерируют картинку из шума за N шагов. Авторы предлагают применять CutMix только на больших шагах, когда картинки сильно зашумлены. Так модель не видит артефактов от грубого наложения, но учится на разнообразии.

Вопросы к бенчмаркам конечно есть, но идеи интересные

How far can we go with ImageNet for Text-to-Image generation?📄

Следите за новостями в тг @kod1nd