24 подписчика

GLM-4.7 Flash: Мощная модель для локального кодинга

21 января21 янв

2 мин

ZAI представила GLM-4.7 Flash – облегченную версию своей флагманской модели GLM-4.7. Эта модель, содержащая 30 миллиардов параметров и поддерживающая контекст в 128 тысяч токенов, построена на архитектуре Mixture of Experts (MoE) и ориентирована на локальный запуск без необходимости использования крупных серверных мощностей. Разработчики стремятся преодолеть разрыв между компактными SLM-моделями и мощными, но проприетарными аналогами. GLM-4.7 Flash должна обеспечить передовой уровень производительности в задачах кодирования и при работе с агентами, оставаясь при этом доступной для использования на локальной инфраструктуре. Архитектура MoE позволяет модели казаться легче, чем она есть на самом деле. Хотя модель формально содержит 30 миллиардов параметров, количество активных параметров на токен значительно меньше – около 3 миллиардов, по оценкам сообщества. Это означает, что вычислительная нагрузка сопоставима со средними моделями, но при этом сохраняется широта мышления, характерная дл

Разработчики стремятся преодолеть разрыв между компактными SLM-моделями и мощными, но проприетарными аналогами. GLM-4.7 Flash должна обеспечить передовой уровень производительности в задачах кодирования и при работе с агентами, оставаясь при этом доступной для использования на локальной инфраструктуре.

Архитектура MoE позволяет модели казаться легче, чем она есть на самом деле. Хотя модель формально содержит 30 миллиардов параметров, количество активных параметров на токен значительно меньше – около 3 миллиардов, по оценкам сообщества. Это означает, что вычислительная нагрузка сопоставима со средними моделями, но при этом сохраняется широта мышления, характерная для более крупных решений.

Одной из ключевых особенностей GLM-4.7 Flash является Interleaved Thinking. В отличие от традиционного подхода, когда модель генерирует весь chain-of-thought сразу, здесь процесс размышления происходит перед каждым вызовом инструмента. Это особенно важно для агентных систем, позволяя модели планировать действия поэтапно и корректировать стратегию в процессе работы, а не следовать заранее заданному сценарию.

ZAI также подчеркивает важность дообучения модели для соответствия современным стандартам разработки и DevOps. GLM-4.7 Flash не только генерирует корректный HTML и CSS, но и пишет код с понятной структурой, правильными отступами и использованием современных шаблонов. Модель также обучена работе с командной строкой, навигации по файловой системе и пониманию прав доступа, что делает ее пригодной для решения реальных инженерных задач.

Результаты бенчмарков впечатляют. В SWE-bench Verified модель показала 59.2%, в то время как Qwen3-30B-A3B – 22.0%, а GPT-OSS-20B – около 34.0%. В математическом AIME 25 GLM-4.7 Flash набрала 91.6%, что также выше, чем у ближайших конкурентов. В тесте BrowseComp модель превзошла GPT-OSS-20B почти в полтора раза.

Благодаря этим характеристикам GLM-4.7 Flash является одним из лучших вариантов для локальных кодинг-агентов. При наличии нескольких видеокарт или готовности к квантованию на одной, модель может стать надежным инструментом для разработки.

Лицензия MIT позволяет использовать модель в коммерческих целях и встраивать ее в собственные продукты без каких-либо ограничений.