VibeThinker-3B набирает: * 94.3 на AIME26 * 80.2 Pass@1 на LiveCodeBench v6 * 96.1% на unseen LeetCode contests Основа - Qwen2.5-Coder. Сверху добавили сильный post-training: * curriculum SFT * multi-domain RL * offline self-distillation * финальный RL-based instruct stage Её просто очень плотно дообучили на проверяемых задачах, где результат можно объективно оценить: решена задача или нет, прошёл тест или нет, ответ правильный или нет. Фронтирные модели всё ещё нужны для https://arxiv.org/abs/2606.16140
Модель на 3B параметров внезапно показывает результаты уровня серьёзных reasoning-систем
ВчераВчера
10
~1 мин