? 🖼️ Перед сном залип на статью, где ребята смогли выжать из ImageNet качество text2img, сравнимое с SDXL. Это круто, потому что ImageNet — это всего 0.001B картинок с метками классов, а SDXL училась на датасете в 5B+. Как они это сделали? С помощью аугментаций, но не просто каких-то, а специально заточенных под text2img. Почему это сложно? 🤔 Обычные аугментации, вроде флипов или поворотов, могут убить качество генерации и промпт-алаймент. Авторы предлагают два типа аугментаций: 1. Текста: Берут метки классов, делают из них короткие описания, а потом расширяют их с помощью LLaVA, генерируя разные длинные промпты. 📝 2. Картинок: Используют CutMix — берут картинку и в рандомное место вставляют другую картинку из датасета. Звучит топорно, но тут есть ньюанс. 🎯 Как работает CutMix ? 🛠️ Диффузионные модели генерируют картинку из шума за N шагов. Авторы предлагают применять CutMix только на больших шагах, когда картинки сильно зашумлены. Так модель не видит артефактов от грубого нал
Как далеко можно зайти с ImageNet в text2img
31 декабря 202531 дек 2025
1 мин