Новый китайский флагман Step-3.7-Flash с 198B MoE (активирует часть параметров) набирает 56.3 на SWE-Bench PRO — это второе место, при этом обходит DeepSeek V4 Flash (55.6) и Gemini 3.5 Flash (55.1). На задачах «длинной агентности» картина ещё заметнее: ClawEval-1.1 = 67.1, где лидерство довольно уверенное против 59.8 у ближайшего конкурента. Но есть и контраст: Terminal-Bench 2.1 = 59.5 — результат умеренный, так что «топ везде» цифры пока не подтверждают. Модель работает как sparse MoE: ~11B активных параметров на токен при заявленном контексте 256K, а за счёт этого заявлена пропускная способность до 400 tok/с. Плюс у неё есть локальный путь через GGUF, например Q4_K_S ≈ 112 GB — по цифрам помещается на Mac Studio с 128 GB unified memory. Как запустить: веса и варианты квантизаций доступны на Hugging Face stepfun-ai/Step-3.7-Flash. Для инференса локально обычно используют llama.cpp/vLLM/SGLang или HuggingFace Transformers (конкретный рецепт зависит от формата: BF16 или GGUF). Цен
⚡⚡ Step-3.7-Flash (198B MoE) обгоняет Gemini 3.5 Flash и DeepSeek V4 Flash в agentic бенчмарках
30 мая30 мая
1 мин