55 подписчиков

Google DeepMind представил экспериментальную открытую модель DiffusionGemma

ВчераВчера

1 мин

Модель выпущена под лицензией Apache 2.0 и построена на архитектуре Mixture of Experts с 26 миллиардами параметров.

Её ключевое отличие от привычных авторегрессионных моделей в том, что в основе подхода лежит так называемая текстовая диффузия.

Она не предсказывает текст слово за словом слева направо, а формирует и постепенно уточняет целые блоки текста одновременно.

Модель начинает с «холста» из случайных токенов-заглушек, делает несколько проходов, фиксируя верные токены и используя их как контекст для уточнения остальных, пока текст не сойдётся к финальному результату — по тому же принципу, что и диффузионные генераторы изображений, только применительно к тексту.

Несмотря на 26 миллиардов параметров в сумме, во время вывода активируется лишь 3,8 миллиарда, благодаря чему в квантованном виде модель умещается в 18 ГБ видеопамяти потребительских видеокарт уровня RTX 5090 и 4090. 🚀

За один проход модель генерирует 256 токенов параллельно.

По скорости цифры впечатляют: более 100

Модель выпущена под лицензией Apache 2.0 и построена на архитектуре Mixture of Experts с 26 миллиардами параметров.

За один проход модель генерирует 256 токенов параллельно.

По скорости цифры впечатляют: более 100

Модель выпущена под лицензией Apache 2.0 и построена на архитектуре Mixture of Experts с 26 миллиардами параметров.

Её ключевое отличие от привычных авторегрессионных моделей в том, что в основе подхода лежит так называемая текстовая диффузия.

Она не предсказывает текст слово за словом слева направо, а формирует и постепенно уточняет целые блоки текста одновременно.

Модель начинает с «холста» из случайных токенов-заглушек, делает несколько проходов, фиксируя верные токены и используя их как контекст для уточнения остальных, пока текст не сойдётся к финальному результату — по тому же принципу, что и диффузионные генераторы изображений, только применительно к тексту.

Несмотря на 26 миллиардов параметров в сумме, во время вывода активируется лишь 3,8 миллиарда, благодаря чему в квантованном виде модель умещается в 18 ГБ видеопамяти потребительских видеокарт уровня RTX 5090 и 4090. 🚀

За один проход модель генерирует 256 токенов параллельно.

По скорости цифры впечатляют: более 1000 токенов в секунду на одной NVIDIA H100 и свыше 700 токенов в секунду на GeForce RTX 5090.🔥

Модель поддерживает контекст в 256 тысяч токенов, более 140 языков и может работать локально на 18 ГБ оперативной памяти, обрабатывая текст, изображения и видео на входе.

При этом Google честно обозначает компромисс.

Поскольку DiffusionGemma ставит во главу угла скорость, итоговое качество вывода ниже, чем у стандартной Gemma 4, которую и рекомендуют для задач, требующих максимального качества.