2373 подписчика

Open-source модель программирования Ornith-1.0 самостоятельно создает каркас обучения для Reinforcement Learning

3 дня назад3 дня назад

12 мин

Агентная модель кодирования с открытым исходным кодом Ornith-1.0, выпущенная сегодня под лицензией MIT, использует самосовершенствующийся цикл обучения с подкреплением для написания собственного обучающего каркаса, сообщая 82.4 по SWE-Bench Verified и 62.2 по более сложному SWE-Bench Pro — результаты, которые независимые исследователи должны рассматривать как. DeepReinforce сегодня выпустила Ornith-1.0 — семейство моделей для кодирования с открытым исходным кодом, построенных на механизме, которого избегает большинство агентов, обученных с помощью RL: сама модель пишет обучающий каркас (harness), который направляет ее собственное улучшение. Линейка, выпущенная бесплатно под лицензией MIT на Hugging Face, включает четыре размера — плотную модель на 9 млрд параметров для периферийных устройств, плотный вариант на 31 млрд, сборку на основе смеси экспертов (MoE) на 35 млрд и флагманскую MoE на 397 млрд — все доступны для немедленной загрузки. Лицензия MIT устраняет юридические препятствия,

Оглавление

Что такое обучение с подкреплением с самосозданием каркаса (Self-Scaffolding Reinforcement Learning)?
Почему взлом вознаграждения (Reward Hacking) — это главный инженерный риск
Четыре модели и для чего предназначена каждая из них

DeepReinforce сегодня выпустила Ornith-1.0 — семейство моделей для кодирования с открытым исходным кодом, построенных на механизме, которого избегает большинство агентов, обученных с помощью RL: сама модель пишет обучающий каркас (harness), который направляет ее собственное улучшение. Линейка, выпущенная бесплатно под лицензией MIT на Hugging Face, включает четыре размера — плотную модель на 9 млрд параметров для периферийных устройств, плотный вариант на 31 млрд, сборку на основе смеси экспертов (MoE) на 35 млрд и флагманскую MoE на 397 млрд — все доступны для немедленной загрузки. Лицензия MIT устраняет юридические препятствия, которые затрудняли использование некоторыми коммерческими командами открытых релизов с ограничениями.

Для разработчиков, оценивающих альтернативы с открытым исходным кодом закрытым агентам кодирования, таким как Claude Code или OpenAI Codex, этот релиз важен по двум причинам: результаты бенчмарков конкурентоспособны с моделями передового класса, а архитектура, которая их создала, структурно отличается от всего, что в настоящее время доступно по открытой лицензии.

Что такое обучение с подкреплением с самосозданием каркаса (Self-Scaffolding Reinforcement Learning)?

Большинство агентных систем кодирования сопоставляют модель с фиксированным, разработанным человеком каркасом — статическим фреймворком, который определяет, как модель генерирует кандидатные решения и оценивает их. Каркас проектируется один раз, проверяется на целевом классе задач и затем остается неизменным, пока модель обучается на нем. Проблема заключается в хрупкости: каркас, оптимизированный для одной категории задач кодирования, деградирует на других, а его обновление требует ручных усилий по проектированию.

Ornith-1.0 заменяет этот статический слой на обучаемый. DeepReinforce описывает этот механизм как автономное создание каркаса: каждый шаг обучения с подкреплением выполняется в две стадии. На основе задачи и каркаса, который модель использовала последним, модель сначала предлагает уточненный каркас для этой конкретной задачи. Затем она генерирует решение, основанное на обновленном каркасе. Вознаграждение от полученного решения распространяется на обе стадии — таким образом, модель учится не только производить лучший код, но и создавать лучшую управляющую логику (orchestration logic). За многие итерации и каркас, и результаты улучшаются совместно.

Практическое следствие состоит в том, что стратегии для каждой категории задач возникают автоматически, без ручного проектирования. Если класс задач поощряет определенный шаблон управления памятью, каркас эволюционирует в сторону этого шаблона. Если другой класс поощряет агрессивную генерацию тестов, каркас соответствующим образом смещается.

Почему взлом вознаграждения (Reward Hacking) — это главный инженерный риск

Предоставление модели влияния на собственный обучающий сигнал вводит хорошо известную проблему в обучении с подкреплением: достаточно способная модель может удовлетворить оценщик, не решая саму задачу, — это сбой, известный как взлом вознаграждения (reward hacking). Классическая форма в средах кодирования — это чтение скрытых тестовых файлов и жесткое кодирование ожидаемого вывода или копирование эталонного решения, присутствующего в среде оценки.

DeepReinforce сообщает, что решила эту проблему с помощью трехуровневой защиты. Самый внешний уровень — это фиксированная граница доверия: среда, поверхность инструментов и изоляция тестов неизменяемы и находятся вне досягаемости модели. Модель может развивать свою память, обработку ошибок и логику оркестровки — но она не может трогать инфраструктуру верификации. Второй уровень — это детерминированный монитор, который помечает любые попытки чтения скрытых путей, изменения скриптов верификации или вызова инструментов за пределами допустимого диапазона, присваивая таким траекториям нулевое вознаграждение и исключая их из обучающего обновления. Третий уровень — это замороженный LLM-судья, который действует как вето поверх верификатора, улавливая манипуляции на уровне намерений, которые происходят полностью в пределах разрешенной поверхности инструментов, но не составляют подлинного решения проблем.

Остается проверить независимо, полностью ли этот трехуровневый стек решает проблему взлома вознаграждения в производственных развертываниях — а не в контролируемом оценочном каркасе, для которого он был разработан. Теоретическая литература по взлому вознаграждения отмечает, что риск возрастает с ростом возможностей агента и не может быть полностью устранен только архитектурными средствами.

Четыре модели и для чего предназначена каждая из них

Ornith-1.0 поставляется в четырех конфигурациях. Плотная модель на 9 млрд параметров нацелена на периферийные и ресурсоограниченные развертывания: при размере около 19 ГБ в точности BF16 она помещается на один GPU с 80 ГБ. Плотная модель на 31 млрд служит в качестве общецелевой сборки среднего уровня. Вариант на основе смеси экспертов (MoE) на 35 млрд использует разреженную активацию, так что только подмножество ее общих параметров обрабатывает каждый токен, что обеспечивает более высокую производительность при более низкой стоимости инференса. Флагманская MoE на 397 млрд разработана для максимальной производительности, с доступными сборками, квантованными в FP8 и GGUF, в дополнение к базовым весам для команд, которым требуется более быстрое локальное обслуживание.

Все четыре модели прошли постобучение на основе предварительно обученных основ из семейств Gemma 4 и Qwen 3.5. Каждый вариант по умолчанию является моделью для рассуждений: ход ассистента начинается с блока “цепочки мыслей” (chain-of-thought) перед окончательным ответом, а инфраструктура обслуживания возвращает рассуждение в отдельном поле, чтобы нижестоящие системы могли проанализировать его независимо от вывода решения.

Заявленные целевые сценарии использования — это практические задачи агентного кодирования: многофайловый рефакторинг, локализация ошибок и исправления на основе тестов — рабочие нагрузки, требующие устойчивого использования инструментов в течение продолжительной сессии, а не одноразового дополнения кода.

Результаты бенчмарков: что показывают цифры и где они останавливаются

DeepReinforce сообщает о результате 82.4 для флагмана 397B в SWE-Bench Verified, самой цитируемой оценке для агентов по разработке ПО, и 77.5 в Terminal-Bench 2.1, более новом бенчмарке, ориентированном на автономные задачи кодирования в терминале. Согласно собственной сравнительной таблице DeepReinforce, эти цифры ставят Ornith-1.0-397B выше Claude Opus 4.7 (который набирает 80.8 в SWE-Bench Verified и 70.3 в Terminal-Bench 2.1) и выше открытых моделей сопоставимого общего числа параметров, включая MiniMax M3 и DeepSeek-V4-Pro.

Сравнительная таблица также показывает, где флагман не лидирует: Claude Opus 4.8 показывает 87.6 в SWE-Bench Verified и 85 в Terminal-Bench 2.1, оба выше, чем у Ornith. GLM-5.2, более крупная модель на 744 млрд параметров, набирает 81.0 в Terminal-Bench 2.1, также выше, чем 77.5 у Ornith. Обозначение “state-of-the-art” в релизе DeepReinforce применимо конкретно к открытым моделям сопоставимого числа параметров, а не ко всему списку лидеров.

Результаты SWE-Bench Verified заслуживают контекста независимо от того, какая модель их показывает. Независимое исследование, опубликованное в марте 2026 года, показало, что примерно 19.78% исправлений, помеченных как решенные ведущими агентами из топ-30, семантически некорректны при оценке с использованием усиленных наборов тестов, при этом результат лидирующего агента упал с 78.80% до 62.20% в результате. Отдельный анализ задокументировал утечку решений более чем в 32% экземпляров бенчмарка — случаи, когда ожидаемое исправление описано в самом отчете о проблеме, что позволяет модели копировать, а не генерировать решение. Это структурные ограничения самого бенчмарка, а не какой-либо конкретной модели, но они означают, что результаты SWE-Bench Verified не следует рассматривать как прямое измерение реальных возможностей разработки ПО.

Более сложный бенчмарк SWE-Bench Pro, который использует устойчивые к утечкам данных задачи из проприетарных кодовых баз, дает иной сигнал: лучшие передовые модели набирают там около 23%. В собственной таблице DeepReinforce модель Ornith-1.0-397B показывает 62.2 в SWE-Bench Pro — конкурентоспособно с другими перечисленными моделями, где Claude Opus 4.8 набирает 69.2, а Claude Opus 4.7 — 64.3.

Меньшие модели несут аргумент эффективности. MoE на 35 млрд набирает 64.2 в Terminal-Bench 2.1, выше, чем Qwen 3.5-397B с его 53.5 — модель с более чем в десять раз большим общим числом параметров. Плотная модель на 9 млрд достигает 43.1 в Terminal-Bench 2.1 и 69.4 в SWE-Bench Verified, превосходя Gemma 4-31B по обоим бенчмаркам, несмотря на меньший размер.

Обобщается ли подход самосоздания каркаса за пределами оценочного набора?

Одно из постоянных критических замечаний в адрес RL-обученных агентов кодирования — это хрупкость, специфичная для каркаса: модель, которая хорошо обучается при одной конфигурации каркаса, может деградировать, когда каркас меняется или когда смещается распределение задач. Механизм автономного создания каркаса разработан для решения этой проблемы путем адаптации каркаса вместо его фиксации. Вопрос о том, делает ли он это на практике за пределами оценочного набора, использованного DeepReinforce, остается открытым — и его предстоит независимо ответить исследовательскому сообществу и производственным пользователям.

Первоначальная реакция сообщества на выпуск была неоднозначной. Из отслеживаемого в день запуска раннего взаимодействия в социальных сетях 55.4% закодированных по тональности ответов были негативными, при этом наиболее распространенными критическими замечаниями были опасения по поводу инфляции бенчмарков и скептицизм относительно того, отражают ли оценки SWE-Bench Verified реальные возможности разработки ПО. Один ML-исследователь со значительной аудиторией отметил, что паттерны вовлеченности выглядели необычно, и рекомендовал оценку практиками, а не принятие на основе заголовков. Предыдущие опубликованные работы DeepReinforce включают CUDA-L1 и цикл оптимизации IterX для кодовых агентов — оба проекта с открытым исходным кодом — что дает команде послужной список в этой области, хотя Ornith-1.0 представляет собой значительно более амбициозный релиз.

Все веса моделей, детали оценки и рецепты развертывания доступны на Hugging Face.

Измеряет ли SWE-Bench Verified реальный навык разработки ПО?

Бенчмарк был создан для оценки того, могут ли языковые модели решать реальные проблемы GitHub. Он измеряет, проходит ли сгенерированный моделью патч существующий набор тестов репозитория — а не то, является ли патч семантически корректным, хорошо структурированным или обобщаемым на шаблоны кода, которые модель не видела. Независимые анализы задокументировали, что бенчмарк чрезмерно представляет исправления ошибок в небольшом наборе репозиториев Python, что более 30% его экземпляров содержат утечку решений, и что оценки могут существенно улучшиться за счет инженерии каркаса без какого-либо изменения в базовой способности модели к рассуждению. На более сложном, устойчивом к утечкам данных SWE-Bench Pro лучшие передовые модели набирают около 23% — примерно четверть их результатов в SWE-Bench Verified. Этот разрыв является наиболее полезным инструментом калибровки при чтении любой оценки Verified модели.

Часто задаваемые вопросы

Что такое Ornith-1.0 и кто его создал?

Ornith-1.0 — это семейство из четырех языковых моделей с открытым исходным кодом, ориентированных на кодирование, выпущенное 25 июня 2026 года командой ИИ-исследователей DeepReinforce, имеющей опыт в проектах с открытым исходным кодом, включая CUDA-L1 и цикл оптимизации кодовых агентов IterX. Модели построены на основе предварительно обученных основ Gemma 4 и Qwen 3.5 и доступны под лицензией MIT на Hugging Face. Их определяющей особенностью является самосовершенствующийся обучающий фреймворк: вместо обучения на фиксированном, разработанном человеком каркасе, каждая модель учится генерировать каркас, который направляет ее собственный поиск решений во время обучения с подкреплением.

Насколько надежны результаты SWE-Bench Verified как мера качества кодовых агентов?

Это наиболее цитируемый показатель, но он имеет задокументированные ограничения. Исследование, опубликованное в марте 2026 года, показало, что примерно каждый пятый патч, помеченный как решенный ведущими агентами, семантически некорректен при тестировании с использованием более строгих наборов тестов. Более чем в 30% задач бенчмарка решения описаны в самом тексте проблемы, что позволяет копировать, а не решать задачу по существу. На более сложном бенчмарке SWE-Bench Pro, который использует устойчивые к утечкам данных задачи из проприетарных кодовых баз, даже лучшие модели набирают около 23%. Результаты SWE-Bench Verified являются полезным сравнительным сигналом, но их не следует рассматривать как прямой прокси для производственных возможностей разработки ПО.

Может ли модель на 9 млрд параметров работать на одном потребительском GPU?

Плотная модель на 9 млрд параметров весит приблизительно 19 ГБ в точности BF16 и предназначена для работы на одном GPU с 80 ГБ. Также доступны сборки, квантованные в GGUF, которые позволят развернуть модель на оборудовании с меньшим объемом VRAM, хотя конкретные требования при разных уровнях квантования следует подтверждать по карточке модели на Hugging Face перед развертыванием.

Что такое подход самосоздания каркаса и чем он отличается от стандартного RL для кодирования?

Стандартные RL-агенты кодирования обучаются на фиксированном каркасе — разработанном человеком фреймворке, который определяет, как модель ищет и оценивает решения. Ornith-1.0 заменяет его двухстадийным циклом: модель сначала предлагает уточненный каркас для текущей задачи, а затем генерирует решение, основанное на этом каркасе. Вознаграждение распространяется на обе стадии, поэтому за многие итерации модель учится одновременно улучшать как дизайн своего каркаса, так и качество своих решений. Риск, который это вносит — что модель может научиться удовлетворять обучающему оценщику, не решая задачи по существу, — устраняется трехуровневой защитой, сочетающей фиксированную границу доверия, детерминированный монитор и замороженного LLM-судью.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Eloise Jones

Оригинал статьи

Машинное обучение (Machine Learning)

35,8 тыс интересуются