Исследовательская работа показывает, что reasoning можно эффективно сжать в компактные модели. VibeThinker-3B (всего 3 млрд параметров) достигает 94.3 на AIME26 (улучшается до 97.1 с test-time scaling), 80.2 Pass@1 на LiveCodeBench v6 и 96.1% acceptance на свежих LeetCode контестах. Это соответствует уровню frontier-систем, которые на порядок больше. Достигается через curriculum-based supervised fine-tuning, multi-domain reinforcement learning (GRPO) и offline self-distillation. Авторы вводят Parametric Compression-Coverage Hypothesis: reasoning компрессируется в небольшое ядро, а open-domain знание требует широкого параметрического покрытия. Инструкция controllability (IFEval 93.4) при этом не страдает. Ред.: 3 миллиарда параметров против сотен миллиардов, но сравнивают строго по олимпиадной математике и LeetCode. На задачах, где ответ можно проверить, а не там, где нужна эрудиция. Большие модели (100B+, 744B+) требуют мощного оборудования и дорогих облачных вычислений. Если можно дос
VibeThinker-3B: 3 млрд параметров, которые конкурируют с Opus на задачах reasoning
СегодняСегодня
2
3 мин