1 неделю назад
⚡⚡ Step-3.7-Flash (198B MoE) обгоняет Gemini 3.5 Flash и DeepSeek V4 Flash в agentic бенчмарках
Новый китайский флагман Step-3.7-Flash с 198B MoE (активирует часть параметров) набирает 56.3 на SWE-Bench PRO — это второе место, при этом обходит DeepSeek V4 Flash (55.6) и Gemini 3.5 Flash (55.1). На задачах «длинной агентности» картина ещё заметнее: ClawEval-1.1 = 67.1, где лидерство довольно уверенное против 59.8 у ближайшего конкурента. Но есть и контраст: Terminal-Bench 2.1 = 59.5 — результат умеренный, так что «топ везде» цифры пока не подтверждают. Модель работает как sparse MoE: ~11B...