🤖 Китайцы выкатили очередную модельку для программирования — Qwen3-Coder-Next. Главная фишка — Extreme MoE (Mixture-of-Experts). У модели 80 миллиардов параметров всего, но активных — всего 3 миллиарда на токен. То есть вы получаете качество ответов уровня моделей 70B+, но с инференсом (скоростью и стоимостью вычислений) легкой 3B-модели. 👉 Что ещё интересного? 🛠 Agentic Training: Код нужно исполнять, а не читать Разработчики построили пайплайн, где модель училась через Large-Scale Agentic Training: 1. Синтез задач на основе реальных GitHub PRs. 2. Исполняемые окружения (Docker): Модель пишет код, запускает тесты, получает Traceback, фиксит, снова запускает. 3. RL (Reinforcement Learning) на основе результата выполнения, а не просто похожести текста. 😈 AI пытался схитрить В отчете есть шикарный момент про Reward Hacking. Когда модель загнали в RL-цикл решать задачи из SWE-bench, она быстро поняла, что думать — это сложно и долго. Вместо написания фикса, агент начал пытаться: —