112 подписчиков

Китайцы обучили ИИ за 6 процентов обычного бюджета. И он вошёл в топ-4 мира

СегодняСегодня

3 мин

Вы когда-нибудь задумывались, сколько стоит создать современную языковую модель? Я не про «поколдовали на коленке», а про реального конкурента GPT-4 или Gemini. Сотни миллионов долларов. А то и миллиарды. Электричество, серверы, зарплаты сотням инженеров, месяцы счёта. Baidu, китайский поисковый гигант, решил, что так больше не может. И выпустил Ernie 5.1. Затраты на претрейн составили всего 6 процентов от типичного бюджета моделей такого класса. Шесть процентов, Карл. И при этом модель залетела в мировой топ-4. Сначала цифры, чтобы вы поняли масштаб Baidu не скромничает и не прячется за общими фразами. Они честно говорят: модель Ernie 5.0 была большой и жирной. Ernie 5.1 - это облегчённая, но более умная версия. Общее число параметров сократилось в три раза. При работе модель использует в два раза меньше активных параметров. Грубо говоря, она легче, быстрее и дешевле в эксплуатации. А результаты в тестах - феноменальные. В глобальном рейтинге Arena Search Leaderboard китайская новинка

Вы когда-нибудь задумывались, сколько стоит создать современную языковую модель? Я не про «поколдовали на коленке», а про реального конкурента GPT-4 или Gemini.

Сотни миллионов долларов. А то и миллиарды. Электричество, серверы, зарплаты сотням инженеров, месяцы счёта.

Baidu, китайский поисковый гигант, решил, что так больше не может. И выпустил Ernie 5.1. Затраты на претрейн составили всего 6 процентов от типичного бюджета моделей такого класса.

Шесть процентов, Карл. И при этом модель залетела в мировой топ-4.

Сначала цифры, чтобы вы поняли масштаб

Baidu не скромничает и не прячется за общими фразами. Они честно говорят: модель Ernie 5.0 была большой и жирной. Ernie 5.1 - это облегчённая, но более умная версия.

Общее число параметров сократилось в три раза. При работе модель использует в два раза меньше активных параметров. Грубо говоря, она легче, быстрее и дешевле в эксплуатации.

А результаты в тестах - феноменальные.

В глобальном рейтинге Arena Search Leaderboard китайская новинка заняла первое место среди всех китайских нейросетей. И четвёртое место в общем мировом зачёте.

Подумайте об этом. Baidu, которого на Западе часто воспринимали как «копию Google», сделал модель, которая встала в один ряд с лучшими на планете.

Где Ernie 5.1 сильнее всех

Разработчики заявляют, что в агентских задачах - то есть когда ИИ должен выполнить сложную цепочку действий, а не просто ответить на один вопрос — модель обходит DeepSeek-V4-Pro.

Это серьёзная заявка. Агентские задачи сейчас - главный тренд. ИИ, который может сам спланировать, выполнить и проверить результат, а не просто болтать.

В математике и логических рассуждениях Ernie 5.1 идёт вровень с Gemini 3.1 Pro от Google. То есть по самым сложным, требующим реального мышления задачам китайцы не уступают американцам.

А по креативности - не потеряли, хотя обычно при улучшении логики страдает творчество. Эту проблему называют «эффектом качелей». Раскачал логику — упала креативность. Поднял креативность - логика захромала.

Baidu нашла способ, как не качаться.

Секретная методика Once-For-All

Как им удалось сэкономить 94 процентов бюджета? Ответ - подход Once-For-All (OFA). Звучит как заклинание из «Властелина колец», но на самом деле всё хитрее.

Суть в том, что целое семейство моделей обучается за один проход. Они делят общие веса, но различаются глубиной и количеством активных блоков. Представьте, что вы построили один огромный дом, а потом из него можно вырезать квартиры разного размера, не перестраивая всё заново.

Основной претрейн сделали ещё для Ernie 5.0. А для версии 5.1 инженеры просто «извлекли» из общего массива весов самую оптимальную конфигурацию.

То есть они не учили модель с нуля. Они взяли уже готовое, нашли в нём лучший кусок и сказали: «Вот это будет наша новая модель».

Гениально и просто. Почему никто не додумался раньше? Ну, потому что все были заняты наращиванием параметров.

Четырёхэтапный файнтюнинг против эффекта качелей

Но просто извлечь конфигурацию мало. Надо ещё настроить, чтобы модель не потеряла креативность, пока вы прокачивали логику.

Baidu применила сложный четырёхэтапный процесс.

Первый этап - стандартное обучение с учителем. SFT, база.

Второй - параллельная тренировка узкоспециализированных экспертов. Один эксперт отвечает за математику, другой за литературу, третий за код.

Третий - дистилляция знаний. Навыки всех экспертов сжимаются в одну модель-ученика. Это как если бы вы взяли лучших учителей по разным предметам и заставили их научить одного студента всему сразу.

Четвёртый - обучение с подкреплением. Модель сама пробует, ошибается, получает обратную связь и становится лучше.

В итоге Ernie 5.1 и логичная, и креативная, и дешёвая, и быстрая.

Что это значит для рынка

Первое - эпоха «чем больше параметров, тем лучше» подходит к концу. Baidu доказала, что можно быть умнее и легче одновременно.

Второе - китайские ИИ-компании перестали догонять. Они уже на равных. А по эффективности — возможно, даже впереди.

Третье - демпинг по ценам неизбежен. Если Baidu может обучать модели за 6 процентов бюджета, она может продавать доступ к ним в разы дешевле конкурентов. А когда цена падает, пользователи начинают мигрировать.

Четвёртое - самое страшное для OpenAI и Google. Методика Once-For-All не секретная магия. Её можно повторить. И Baidu не единственная, кто над этим работает.

Скоро все начнут оптимизировать. А кто не начнёт - умрёт.

А вы как думаете — победит в итоге тот, у кого больше параметров и денег, или тот, кто умнее распорядится ресурсами? Пишите в комментариях.

Если зашло - ставьте лайк и подписывайтесь. Тут без пропаганды, но с цифрами.