Гонка искусственного интеллекта для программистов выходит на новый уровень. Компания Cohere представила свою первую специализированную модель для разработки программного обеспечения — North Mini Code.
Несмотря на относительно компактный размер, новинка сумела обойти ряд значительно более крупных открытых моделей в задачах программирования, генерации кода и работы автономных ИИ-агентов.
Это еще один признак того, что индустрия постепенно переходит от принципа «чем больше модель, тем лучше» к более эффективным архитектурам.
Что такое North Mini Code
North Mini Code — это новая модель семейства North от Cohere.
Она построена на архитектуре Mixture-of-Experts (MoE) и содержит 30 миллиардов параметров, однако одновременно активируются только 3 миллиарда параметров.
Подобный подход позволяет значительно снизить требования к вычислительным ресурсам без серьезной потери качества.
Главная цель модели — не просто писать код, а выполнять полноценные задачи программной инженерии в режиме ИИ-агента.
То есть модель может:
- анализировать проекты;
- работать через терминал;
- редактировать существующий код;
- использовать инструменты разработки;
- решать сложные инженерные задачи.
Производительность выше ожидаемой
Одним из самых интересных результатов стали показатели модели в независимых тестах.
По данным Artificial Analysis Coding Index, North Mini Code набрала 33,4 балла.
Этого оказалось достаточно, чтобы обойти такие известные модели, как:
- Qwen3.5 35B-A3B;
- Gemma 4 26B;
- Devstral Small 2;
- Nemotron 3 Super;
- Mistral Small 4;
- Devstral 2.
Особенно примечательно, что некоторые из перечисленных моделей значительно крупнее разработки Cohere.
Фактически компания показала, что грамотное обучение и архитектурные решения способны дать больше пользы, чем простое увеличение количества параметров.
Ставка на ИИ-агентов
Сегодня все больше внимания уделяется агентным системам.
Если обычный чат-бот отвечает на вопросы пользователя, то агент способен самостоятельно выполнять задачи, взаимодействовать с инструментами и принимать решения в рамках поставленной цели.
Именно на таких сценариях и была сфокусирована разработка North Mini Code.
Для обучения использовались десятки тысяч реальных задач из программной инженерии.
Модель работала с репозиториями, терминальными окружениями и полноценными проектами, а не только с отдельными фрагментами кода.
В общей сложности разработчики использовали более 70 тысяч проверяемых задач из примерно 5000 различных программных проектов.
Как обучали новую модель
После базового обучения разработчики применили многоэтапную систему дообучения.
Сначала модель проходила два этапа Supervised Fine-Tuning (SFT), а затем обучалась с помощью Reinforcement Learning with Verifiable Rewards (RLVR).
Если говорить простыми словами, модель не просто генерировала ответы, а получала возможность проверять результат своей работы через тесты и автоматически учиться на успешных решениях.
Такой подход особенно полезен для программирования, где правильность результата можно объективно проверить.
В ходе обучения модель использовала контекстные окна длиной до 128 тысяч токенов, что позволяет ей анализировать достаточно крупные проекты целиком.
Почему разработчики делают ставку на устойчивость
Одной из проблем современных кодовых моделей является зависимость от конкретной среды работы.
Многие модели показывают хорошие результаты только в одном тестовом окружении, но начинают ошибаться при переходе на другие инструменты.
В Cohere решили бороться с этой проблемой заранее.
North Mini Code обучалась сразу на нескольких типах агентных платформ и инструментов.
Благодаря этому модель лучше адаптируется к различным средам разработки и может использоваться в более широком спектре задач.
Для реальных разработчиков это означает более предсказуемое поведение модели независимо от используемого инструментария.
RL-обучение дало заметный прирост
После применения RLVR производительность модели выросла еще сильнее.
На тестах Terminal-Bench v2 результат увеличился на 7,9 процентного пункта.
На SWE-Bench прирост составил около 3 процентных пунктов.
Но самое интересное заключается не только в росте баллов.
Разработчики отмечают, что модель стала:
- делать меньше ошибочных вызовов инструментов;
- быстрее завершать задачи;
- реже зацикливаться на повторяющихся действиях;
- эффективнее находить рабочие решения.
Для агентных систем подобные улучшения зачастую важнее сухих цифр в бенчмарках.
Что показали реальные тесты с людьми
Помимо автоматических тестов Cohere провела внутреннюю оценку с участием людей.
Эксперты сравнивали финальную версию модели с вариантом, который прошел только этап SFT без RL-обучения.
Оценивались четыре направления:
- объяснение кода;
- редактирование проектов;
- визуализация данных;
- разработка приложений с нуля.
В большинстве случаев пользователи предпочитали финальную версию модели.
Особенно заметным оказалось улучшение в задачах редактирования существующего кода.
Общий показатель предпочтения составил 66,1% в пользу версии после RLVR-обучения.
Почему это важно
North Mini Code показывает одну из главных тенденций современного рынка ИИ.
Разработчики постепенно отходят от бесконечной гонки размеров моделей и концентрируются на специализированном обучении под конкретные задачи.
Для программистов это означает появление более эффективных инструментов, которые способны выполнять реальные инженерные задачи, а не просто генерировать фрагменты кода.
Если тренд сохранится, в ближайшие годы именно такие специализированные агентные модели могут стать основой новых поколений ИИ-помощников для разработки программного обеспечения.