Найти в Дзене
ProAi

Китайская компания Weibo выпустила AI-модель, которая переворачивает всё, что мы знали о размере моделей

Представьте: компания выпускает AI-модель размером в 1,5 миллиарда параметров, а она работает лучше, чем системы в сотни раз больше. Звучит как фантастика? Но это случилось на самом деле, и это меняет представление о том, как должны работать современные языковые модели. Китайская социальная сеть Weibo (та самая, которую называют китайским X) выпустила открытую AI-модель VibeThinker-1.5B. Да, её можно скачать бесплатно и использовать даже в коммерческих целях — лицензия MIT, всё честно. Модель доступна на Hugging Face, GitHub и ModelScope. И вот что тут интересно: при своём компактном размере она показывает просто феноменальные результаты в математических задачах и написании кода. Она переигрывает DeepSeek’s R1 (это модель на 671 миллиард параметров!) на формальных тестах рассуждений. Представляете разницу? Это как если бы малолитражка обошла на трассе грузовик. Вот что действительно поражает: всю эту магию сделали за 7800 долларов. Да, вы правильно прочитали — семь тысяч восьсот. Это п
Оглавление
   Прорыв от Weibo: революционная AI-модель меняет парадигму машинного обучения, бросая вызов традиционным представлениям о размере моделей.
Прорыв от Weibo: революционная AI-модель меняет парадигму машинного обучения, бросая вызов традиционным представлениям о размере моделей.

Маленькая модель с огромными возможностями: что произошло в мире AI на этой неделе

Представьте: компания выпускает AI-модель размером в 1,5 миллиарда параметров, а она работает лучше, чем системы в сотни раз больше. Звучит как фантастика? Но это случилось на самом деле, и это меняет представление о том, как должны работать современные языковые модели.

Что случилось: новая модель от Weibo

Китайская социальная сеть Weibo (та самая, которую называют китайским X) выпустила открытую AI-модель VibeThinker-1.5B. Да, её можно скачать бесплатно и использовать даже в коммерческих целях — лицензия MIT, всё честно. Модель доступна на Hugging Face, GitHub и ModelScope.

И вот что тут интересно: при своём компактном размере она показывает просто феноменальные результаты в математических задачах и написании кода. Она переигрывает DeepSeek’s R1 (это модель на 671 миллиард параметров!) на формальных тестах рассуждений. Представляете разницу? Это как если бы малолитражка обошла на трассе грузовик.

Почему это имеет значение: вопрос денег и эффективности

Вот что действительно поражает: всю эту магию сделали за 7800 долларов. Да, вы правильно прочитали — семь тысяч восьсот. Это примерно 3900 часов работы на видеокартах Nvidia H800. Для сравнения: обучение похожих моделей обычно стоит десятки или даже сотни тысяч долларов.

Но подождите — это не полная стоимость разработки, это только финальный этап (так называемый post-training). Модель сначала обучают на огромных объёмах текста в интернете (этап pre-training), а потом дополнительно настраивают на специальных данных. Но даже с этой оговоркой результат впечатляет.

Как им это удалось: Spectrum-to-Signal Principle

Авторы модели использовали необычный подход — Spectrum-to-Signal Principle (SSP). Проще говоря, они поделили обучение на две фазы:

  • Фаза 1 (Spectrum): модель учится придумывать много разных правильных ответов. Это как если бы вы учили ученика не просто решать задачу, а видеть несколько вариантов решения.
  • Фаза 2 (Signal): специальный алгоритм reinforcement learning выбирает самые правильные пути из всех этих вариантов. Система особо внимания уделяет случаям, когда модель сомневается — именно там можно научиться лучше всего.

Результат? Маленькая модель лучше исследует пространство возможных решений, не требуя при этом сотни миллиардов параметров.

Цифры, которые говорят сами за себя

Посмотрите на эти результаты:

  • На тесте AIME25 (математика): 74.4 балла. DeepSeek R1 набрал 70.0. И это при разнице в 400+ раз по размеру!
  • На LiveCodeBench v6 (написание кода): 51.1 балла. Claude Opus 4 — 47.4.
  • На GPQA (общие знания): тут она честно отстаёт от больших моделей, но это закономерно.

Получается, что VibeThinker отлично справляется с логическими и структурированными задачами, но не претендует на то, чтобы заменить большие модели в энциклопедических знаниях. Это специалист, а не универсал.

Что это значит для практики

Инженеры и компании, слушайте внимательно. Инференс (то есть использование модели) стоит в 20-70 раз дешевле, чем с большими моделями. Модель достаточно компактная, чтобы работать на смартфонах и встроенных системах в автомобилях. Это означает:

  • Быстрый ответ приложения (низкая задержка)
  • Работа без интернета — всё на локальном устройстве
  • Радикально сниженные затраты
  • Больше контроля над данными (приватность)

Представьте: вместо того чтобы отправлять каждый запрос в облако к мощной модели, компания может запустить VibeThinker прямо у себя, и это будет работать быстрее и дешевле.

Почему Weibo это делает: стратегический ход

Weibo — это китайская социальная сеть, огромная платформа с 600 миллионами активных пользователей в месяц. Но на фоне взлёта видео-платформ типа Douyin позиции компании ослабли. Вот и решили развиваться в сторону AI.

Это не просто исследовательский проект. Это сигнал: мы становимся не просто соцсетью, а игроком в индустрии искусственного интеллекта. У компании есть капитал, данные о поведении миллионов пользователей и свои исследовательские таланты. Логично их использовать.

Главный вывод: размер — это не всё

VibeThinker разрушает один из главных мифов AI-индустрии: что больше параметров = всегда лучше результаты. Оказывается, правильная система обучения может быть куда важнее.

Это открывает двери для разработки компактных, специализированных моделей, которые будут дешевле и практичнее в использовании. Может быть, золотой век мегамоделей в 671 миллиард параметров уже позади? Нам всем предстоит понять.

Хотите не пропустить такие важные события в мире AI и понять, как они влияют на нашу работу и бизнес?🔔 Следите за развитием технологий machine learning, новыми моделями и трендами в AI — подпишитесь на мой канал «ProAI» в Telegram!