Модель выпущена под лицензией Apache 2.0 и построена на архитектуре Mixture of Experts с 26 миллиардами параметров.
Её ключевое отличие от привычных авторегрессионных моделей в том, что в основе подхода лежит так называемая текстовая диффузия.
Она не предсказывает текст слово за словом слева направо, а формирует и постепенно уточняет целые блоки текста одновременно.
Модель начинает с «холста» из случайных токенов-заглушек, делает несколько проходов, фиксируя верные токены и используя их как контекст для уточнения остальных, пока текст не сойдётся к финальному результату — по тому же принципу, что и диффузионные генераторы изображений, только применительно к тексту.
Несмотря на 26 миллиардов параметров в сумме, во время вывода активируется лишь 3,8 миллиарда, благодаря чему в квантованном виде модель умещается в 18 ГБ видеопамяти потребительских видеокарт уровня RTX 5090 и 4090. 🚀
За один проход модель генерирует 256 токенов параллельно.
По скорости цифры впечатляют: более 100