Вышла опенсорсная модель для кодинга, которая обходит Claude Opus 4.7 на ключевых бенчмарках

2 дня назад2 дня назад

~1 мин

DeepReinforce выпустила Ornith-1.0, семейство открытых моделей заточенных под агентное кодирование. Четыре варианта: 9B Dense, 31B Dense, 35B MoE и 397B MoE. Базы Gemma 4 и Qwen 3.5. Ключевая идея модели в том, что она учится не только решать задачи, но и строить сценарии их решения. Обычные модели получают готовый «каркас» того, как подходить к задаче, и работают по нему. Ornith сама его генерирует и улучшает в процессе обучения. Flagship версия 397B набрала 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified. Claude Opus 4.7 на тех же тестах показывает 70.3 и 80.8. 35B версия обгоняет Qwen 3.5-397B на Terminal-Bench, то есть модель в 11 раз меньше по параметрам работает лучше на этом тесте. 9B вариант, который запускается на обычном железе, обходит Gemma 4-31B на нескольких бенчмарках. Все модели доступны на Hugging Face. @bykorolev

Ключевая идея модели в том, что она учится не только решать задачи, но и строить сценарии их решения. Обычные модели получают готовый «каркас» того, как подходить к задаче, и работают по нему. Ornith сама его генерирует и улучшает в процессе обучения.

Flagship версия 397B набрала 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified. Claude Opus 4.7 на тех же тестах показывает 70.3 и 80.8.

35B версия обгоняет Qwen 3.5-397B на Terminal-Bench, то есть модель в 11 раз меньше по параметрам работает лучше на этом тесте.

9B вариант, который запускается на обычном железе, обходит Gemma 4-31B на нескольких бенчмарках.

Все модели доступны на Hugging Face.

@bykorolev