Добавить в корзинуПозвонить
Найти в Дзене
SunN1nja

Китайцы выпустили убийцу дорогих ИИ? Step 3.7 Flash показывает почти уровень Claude Opus, но стоит в 9 раз дешевле

Пока большинство обсуждает GPT, Claude и Gemini, китайская компания StepFun quietly выпустила одну из самых интересных моделей этого года. Новая модель называется Step 3.7 Flash. На первый взгляд характеристики выглядят впечатляюще: Но самое интересное даже не это. По данным StepFun, в некоторых задачах программирования новая модель достигает 97% производительности Claude Opus 4.6, при этом обходится примерно в 9 раз дешевле. Обычно, когда речь идёт о моделях на сотни миллиардов параметров, сразу возникает вопрос стоимости. Но здесь используется архитектура: Mixture-of-Experts (MoE) В такой системе работает не вся сеть целиком. Для каждого токена активируются только нужные эксперты. В результате модель имеет: То есть по вычислительным затратам она ближе к модели на 11 млрд параметров, чем к полноценным 198 млрд. Step 3.5 Flash была исключительно текстовой моделью. Теперь Step 3.7 Flash получила полноценную мультимодальность. Внутри работает отдельный визуальный энкодер: Vision Transfor
Оглавление
Китайцы выпустили убийцу дорогих ИИ? Step 3.7 Flash показывает почти уровень Claude Opus, но стоит в 9 раз дешевле
Китайцы выпустили убийцу дорогих ИИ? Step 3.7 Flash показывает почти уровень Claude Opus, но стоит в 9 раз дешевле

Пока большинство обсуждает GPT, Claude и Gemini, китайская компания StepFun quietly выпустила одну из самых интересных моделей этого года.

Новая модель называется Step 3.7 Flash.

На первый взгляд характеристики выглядят впечатляюще:

  • 198 миллиардов параметров;
  • поддержка изображений;
  • контекстное окно 256 тысяч токенов;
  • скорость до 400 токенов в секунду;
  • открытая лицензия Apache 2.0.

Но самое интересное даже не это.

По данным StepFun, в некоторых задачах программирования новая модель достигает 97% производительности Claude Opus 4.6, при этом обходится примерно в 9 раз дешевле.

Огромная модель, которая работает как маленькая

Обычно, когда речь идёт о моделях на сотни миллиардов параметров, сразу возникает вопрос стоимости.

Но здесь используется архитектура:

Mixture-of-Experts (MoE)

В такой системе работает не вся сеть целиком.

Для каждого токена активируются только нужные эксперты.

В результате модель имеет:

Характеристики модели
Характеристики модели

То есть по вычислительным затратам она ближе к модели на 11 млрд параметров, чем к полноценным 198 млрд.

Наконец-то появилась нормальная работа с изображениями

Step 3.5 Flash была исключительно текстовой моделью.

Теперь Step 3.7 Flash получила полноценную мультимодальность.

Внутри работает отдельный визуальный энкодер:

Vision Transformer (ViT)
1.8B параметров

Он позволяет анализировать:

  • изображения;
  • интерфейсы программ;
  • документы;
  • скриншоты;
  • веб-страницы.

Для агентных систем это огромный шаг вперёд.

Производительность в программировании

Самые интересные результаты модель показала в задачах написания кода.

SWE-Bench Pro

SWE-Bench Pro
SWE-Bench Pro

Terminal-Bench 2.1

-4

SWE-MTLG

72.42%
Для агентных систем программирования это очень сильный показатель.

Что такое Advisor Mode

Самой интересной функцией стала технология:

Advisor Mode
Идея напоминает подход Anthropic.

Во время выполнения задачи работает дешёвая модель-исполнитель.

Только в сложных местах происходит обращение к более мощной модели-консультанту.

Например:

  • при планировании решения;
  • при повторяющихся ошибках;
  • при сложных логических переходах.

Всё остальное время используется дешёвый исполнитель.

Результаты Advisor Mode

На SWE-Bench Verified:

SWE-Bench Verified
SWE-Bench Verified

Получается, что Step 3.7 Flash выдаёт примерно 97% результата Claude Opus при стоимости почти в 9 раз ниже.

Неожиданное поведение модели

Во время тестирования разработчики заметили интересный эффект.

Модель самостоятельно начала комбинировать разные инструменты.

Например:

  1. генерировала фронтенд-код;
  2. запускала интерфейс;
  3. анализировала результат через визуальные инструменты;
  4. исправляла ошибки;
  5. повторяла цикл.

Причём специально этому её никто не обучал.

В StepFun называют это:

Emergent Compositional Tool Use
или «возникающим композиционным использованием инструментов».

Поиск и исследования

Многие современные модели используют поиск как отдельный внешний модуль.

StepFun решила встроить поиск прямо в цикл рассуждения.

Результаты выглядят интересно:

Результаты
Результаты

Особенно впечатляет результат на ResearchRubrics.

Для сравнения:

GPT 5.5 — 61.50%
Step 3.7 Flash — 71.68%

Сколько стоит использование

Стоимость API:

Стоимость API:
Стоимость API:

На фоне многих современных моделей цены выглядят весьма агрессивно.

Что это значит для рынка ИИ

Последние два года индустрия двигалась по простому пути:

больше параметров = лучше модель.

StepFun показывает другой подход.

Вместо бесконечного наращивания размеров они делают ставку на:

  • MoE-архитектуру;
  • агентные сценарии;
  • мультимодальность;
  • использование инструментов;
  • длинный контекст.

И судя по результатам, такая стратегия работает.

Если показатели компании подтвердятся независимыми тестами, Step 3.7 Flash может стать одной из самых интересных открытых моделей для создания ИИ-агентов в 2026 году.

🔥 Как думаете, смогут ли такие дешёвые MoE-модели в ближайшие годы потеснить GPT и Claude в реальных рабочих задачах?