Zhipu AI представила легковесную модель GLM-4.7-Flash на базе MoE (30B/3B параметров) с бесплатным API. Новинка использует архитектуру MLA для повышения эффективности, демонстрирует 59.2 на SWE-bench и достигает 43 токенов/сек на Apple M5. Компания Zhipu AI официально представила открытый исходный код и выпустила GLM-4.7-Flash — легковесную большую языковую модель, позиционируемую как преемник GLM-4.5-Flash. Модель теперь доступна с бесплатным доступом через API и разработана для локального программирования и агентских приложений. GLM-4.7-Flash использует архитектуру Mixture-of-Experts (MoE) с общим числом параметров в 30 миллиардов, при этом во время инференса активируется лишь около 3 миллиардов параметров, что значительно повышает эффективность. На бенчмарке SWE-bench Verified, предназначенном для реального исправления кода, модель продемонстрировала результат 59.2, подтверждая свои сильные способности к кодированию и логическому мышлению. Важным техническим достижением стало первое
Zhipu AI выпускает в открытый доступ облегченную модель GLM-4.7-Flash и представляет архитектуру MLA
20 января20 янв
9
1 мин