672 подписчика

Китайцы выпустили убийцу дорогих ИИ? Step 3.7 Flash показывает почти уровень Claude Opus, но стоит в 9 раз дешевле

8 июня8 июн

3 мин

Пока большинство обсуждает GPT, Claude и Gemini, китайская компания StepFun quietly выпустила одну из самых интересных моделей этого года. Новая модель называется Step 3.7 Flash. На первый взгляд характеристики выглядят впечатляюще: Но самое интересное даже не это. По данным StepFun, в некоторых задачах программирования новая модель достигает 97% производительности Claude Opus 4.6, при этом обходится примерно в 9 раз дешевле. Обычно, когда речь идёт о моделях на сотни миллиардов параметров, сразу возникает вопрос стоимости. Но здесь используется архитектура: Mixture-of-Experts (MoE) В такой системе работает не вся сеть целиком. Для каждого токена активируются только нужные эксперты. В результате модель имеет: То есть по вычислительным затратам она ближе к модели на 11 млрд параметров, чем к полноценным 198 млрд. Step 3.5 Flash была исключительно текстовой моделью. Теперь Step 3.7 Flash получила полноценную мультимодальность. Внутри работает отдельный визуальный энкодер: Vision Transfor

Оглавление

Огромная модель, которая работает как маленькая
Наконец-то появилась нормальная работа с изображениями
Производительность в программировании

Пока большинство обсуждает GPT, Claude и Gemini, китайская компания StepFun quietly выпустила одну из самых интересных моделей этого года.

Новая модель называется Step 3.7 Flash.

На первый взгляд характеристики выглядят впечатляюще:

198 миллиардов параметров;
поддержка изображений;
контекстное окно 256 тысяч токенов;
скорость до 400 токенов в секунду;
открытая лицензия Apache 2.0.

Но самое интересное даже не это.

По данным StepFun, в некоторых задачах программирования новая модель достигает 97% производительности Claude Opus 4.6, при этом обходится примерно в 9 раз дешевле.

Огромная модель, которая работает как маленькая

Обычно, когда речь идёт о моделях на сотни миллиардов параметров, сразу возникает вопрос стоимости.

Но здесь используется архитектура:

Mixture-of-Experts (MoE)

В такой системе работает не вся сеть целиком.

Для каждого токена активируются только нужные эксперты.

В результате модель имеет:

То есть по вычислительным затратам она ближе к модели на 11 млрд параметров, чем к полноценным 198 млрд.

Наконец-то появилась нормальная работа с изображениями

Step 3.5 Flash была исключительно текстовой моделью.

Теперь Step 3.7 Flash получила полноценную мультимодальность.

Внутри работает отдельный визуальный энкодер:

Vision Transformer (ViT)
1.8B параметров

Он позволяет анализировать:

изображения;
интерфейсы программ;
документы;
скриншоты;
веб-страницы.

Для агентных систем это огромный шаг вперёд.

Производительность в программировании

Самые интересные результаты модель показала в задачах написания кода.

SWE-Bench Pro

Terminal-Bench 2.1

SWE-MTLG

72.42%
Для агентных систем программирования это очень сильный показатель.

Что такое Advisor Mode

Самой интересной функцией стала технология:

Advisor Mode
Идея напоминает подход Anthropic.

Во время выполнения задачи работает дешёвая модель-исполнитель.

Только в сложных местах происходит обращение к более мощной модели-консультанту.

Например:

при планировании решения;
при повторяющихся ошибках;
при сложных логических переходах.

Всё остальное время используется дешёвый исполнитель.

Результаты Advisor Mode

На SWE-Bench Verified:

Получается, что Step 3.7 Flash выдаёт примерно 97% результата Claude Opus при стоимости почти в 9 раз ниже.

Неожиданное поведение модели

Во время тестирования разработчики заметили интересный эффект.

Модель самостоятельно начала комбинировать разные инструменты.

Например:

генерировала фронтенд-код;
запускала интерфейс;
анализировала результат через визуальные инструменты;
исправляла ошибки;
повторяла цикл.

Причём специально этому её никто не обучал.

В StepFun называют это:

Emergent Compositional Tool Use
или «возникающим композиционным использованием инструментов».

Поиск и исследования

Многие современные модели используют поиск как отдельный внешний модуль.

StepFun решила встроить поиск прямо в цикл рассуждения.

Результаты выглядят интересно:

Особенно впечатляет результат на ResearchRubrics.

Для сравнения:

GPT 5.5 — 61.50%
Step 3.7 Flash — 71.68%

Сколько стоит использование

Стоимость API:

На фоне многих современных моделей цены выглядят весьма агрессивно.

Что это значит для рынка ИИ

Последние два года индустрия двигалась по простому пути:

больше параметров = лучше модель.

StepFun показывает другой подход.

Вместо бесконечного наращивания размеров они делают ставку на:

MoE-архитектуру;
агентные сценарии;
мультимодальность;
использование инструментов;
длинный контекст.

И судя по результатам, такая стратегия работает.

Если показатели компании подтвердятся независимыми тестами, Step 3.7 Flash может стать одной из самых интересных открытых моделей для создания ИИ-агентов в 2026 году.

🔥 Как думаете, смогут ли такие дешёвые MoE-модели в ближайшие годы потеснить GPT и Claude в реальных рабочих задачах?