11,9 тыс подписчиков

Модель на 3B параметров внезапно показывает результаты уровня серьёзных reasoning-систем

ВчераВчера

~1 мин

VibeThinker-3B набирает: * 94.3 на AIME26 * 80.2 Pass@1 на LiveCodeBench v6 * 96.1% на unseen LeetCode contests Основа - Qwen2.5-Coder. Сверху добавили сильный post-training: * curriculum SFT * multi-domain RL * offline self-distillation * финальный RL-based instruct stage Её просто очень плотно дообучили на проверяемых задачах, где результат можно объективно оценить: решена задача или нет, прошёл тест или нет, ответ правильный или нет. Фронтирные модели всё ещё нужны для https://arxiv.org/abs/2606.16140

Модель на 3B параметров внезапно показывает результаты уровня серьёзных reasoning-систем.

VibeThinker-3B набирает:

* 94.3 на AIME26

* 80.2 Pass@1 на LiveCodeBench v6

* 96.1% на unseen LeetCode contests

Основа - Qwen2.5-Coder. Сверху добавили сильный post-training:

* curriculum SFT

* multi-domain RL

* offline self-distillation

* финальный RL-based instruct stage

Её просто очень плотно дообучили на проверяемых задачах, где результат можно объективно оценить: решена задача или нет, прошёл тест или нет, ответ правильный или нет.

Фронтирные модели всё ещё нужны для

https://arxiv.org/abs/2606.16140