📰 VibeThinker-3B от Sina Weibo: крошечная модель с 3 млрд параметров ломает шаблоны и заставляет пересмотреть ai benchmark — TechLoot

СегодняСегодня

2 мин

В минувшее воскресенье девять исследователей из Sina Weibo — китайской соцсети, которая известна микроблогами, а не передовым ИИ, — тихо выложили на arXiv 14-страничный техотчёт, взорвавший AI-сообщество. Их заявление: языковая модель с всего 3 миллиардами параметров может на равных соперничать по логическим рассуждениям с флагманскими системами Google DeepMind, OpenAI, Anthropic и DeepSeek, которые в сотни раз больше. Модель, названная VibeThinker-3B, набрала 94.3 на AIME 2026 — Американской пригласительной математической олимпиаде, одном из самых сложных стандартизированных конкурсов по математике в мире. Этот результат ставит её рядом с DeepSeek V3.2 (671 млрд параметров) и выше Gemini 3 Pro (91.7) от Google. При использовании техники масштабирования на этапе тестирования, которую команда называет Claim-Level Reliability Assessment, показатель взлетает до 97.1, обходя практически все известные системы. В течение нескольких часов после публикации статья набрала 62 апвоута на Huggin

Модель, названная VibeThinker-3B, набрала 94.3 на AIME 2026 — Американской пригласительной математической олимпиаде, одном из самых сложных стандартизированных конкурсов по математике в мире. Этот результат ставит её рядом с DeepSeek V3.2 (671 млрд параметров) и выше Gemini 3 Pro (91.7) от Google. При использовании техники масштабирования на этапе тестирования, которую команда называет Claim-Level Reliability Assessment, показатель взлетает до 97.1, обходя практически все известные системы.

В течение нескольких часов после публикации статья набрала 62 апвоута на Hugging Face, репозиторий модели — 130 лайков, а GitHub-репозиторий — 685 звёзд. Но реакция в соцсетях была далеко не единодушно восторженной. В большинстве своём — крайне скептической.

«КАКОГО ЧЁРТА происходит в AI?» — написал пользователь @orcus108 на X в посте, набравшем более 161 000 просмотров. «Модель с 3B параметров выдаёт результаты кодинга на уровне Claude Opus 4.5… Я правда не знаю, это прорыв или бенчмарки сломаны».

Это напряжение — между подлинным научным прогрессом и растущим подозрением, что бенчмарки ИИ стали настолько игровыми, что потеряли смысл — находится в центре истории VibeThinker-3B. И ответ имеет колоссальное значение не только для академических лавров, но и для многомиллиардного вопроса: является ли безостановочная гонка индустрии за всё большими моделями единственным путём к интеллекту.

Результаты бенчмарков, которые бросают вызов законам масштабирования современного ИИ

Отчёт сообщает о показателях, которые по любым обычным меркам выглядят экстраординарно. Этот ai benchmark от команды Sina Weibo — VibeThinker-3B — заставляет пересмотреть устоявшиеся взгляды.

По математике VibeThinker-3B показал 91.4 на AIME 2025, 94.3 на AIME 2026, 89.3 на HMMT 2025 (Математический турнир Гарвард-МИТ), 93.8 на BruMO 2025 (Математическая олимпиада Брауновского университета) и 76.4 на IMO-AnswerBench — бенчмарке из 400 задач уровня Международной математической олимпиады. По кодингу — 80.2 Pass@1 на LiveCodeBench v6 (бенчмарк для генерации исполняемого кода) и 96.1% приемки на свежих контестах LeetCode с апреля по май 2026 года. На способности следовать инструкциям — 93.4 на IFEval.

Чтобы осознать разницу в параметрах: DeepSeek V3.2 имеет 671 миллиард — примерно в 224 раза больше VibeThinker-3B. GLM-5 от Zhipu AI — 744 миллиарда. Kimi K2.5 от Moonshot AI превышает 1 триллион. VibeThinker-3B с 3 миллиардами параметров мог бы работать на обычном ноутбуке.

Исследователи подают этот результат не как аномалию, а как доказательство более широкой теоретической гипотезы. Они вводят так называемую «Гипотезу параметрического сжатия-покрытия» (Parametric Compression-Coverage Hypothesis), которая утверждает: разные типы возможностей ИИ имеют принципиально разные отношения к размеру модели....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут