Добавить в корзинуПозвонить
Найти в Дзене

Китай наступает на пятки Nvidia — Ant Group обучает ИИ без дорогих американских чипов

Компания Ant Group (входит в группу Alibaba) начала использовать китайские полупроводники при обучении моделей искусственного интеллекта, чтобы сократить затраты и снизить зависимость от американских технологий, находящихся под экспортными ограничениями. Об этом сообщили источники, знакомые с ситуацией. Согласно данным, Ant Group применяет чипы от китайских производителей, включая те, что связаны с Alibaba и Huawei, для обучения моделей больших языков (LLM) по методу Mixture of Experts (MoE) — это архитектура, в которой задачи делятся между множеством специализированных "экспертов", что позволяет повысить эффективность обучения. Источники утверждают, что результаты обучения на китайских чипах оказались сопоставимыми с теми, что получены при использовании Nvidia H800 — одного из самых мощных доступных китайским компаниям графических процессоров. Хотя Ant по-прежнему использует решения Nvidia в некоторых проектах, один из источников сообщил, что компания всё чаще обращается к альтернатив

Компания Ant Group (входит в группу Alibaba) начала использовать китайские полупроводники при обучении моделей искусственного интеллекта, чтобы сократить затраты и снизить зависимость от американских технологий, находящихся под экспортными ограничениями. Об этом сообщили источники, знакомые с ситуацией.

Согласно данным, Ant Group применяет чипы от китайских производителей, включая те, что связаны с Alibaba и Huawei, для обучения моделей больших языков (LLM) по методу Mixture of Experts (MoE) — это архитектура, в которой задачи делятся между множеством специализированных "экспертов", что позволяет повысить эффективность обучения. Источники утверждают, что результаты обучения на китайских чипах оказались сопоставимыми с теми, что получены при использовании Nvidia H800 — одного из самых мощных доступных китайским компаниям графических процессоров.

Хотя Ant по-прежнему использует решения Nvidia в некоторых проектах, один из источников сообщил, что компания всё чаще обращается к альтернативам — как от AMD, так и от местных производителей чипов, — особенно для новых моделей.

Это свидетельствует об углублении участия Ant в гонке ИИ между китайскими и американскими компаниями, где ключевую роль играет оптимизация затрат на обучение моделей. Эксперименты с китайским "железом" отражают стремление китайских фирм обойти экспортные ограничения на поставку высокопроизводительных чипов, таких как Nvidia H800. Несмотря на то, что это не самый продвинутый GPU, он остаётся одним из самых мощных, к которым китайские компании всё ещё имеют доступ.

Ant опубликовала исследование, в котором описывает полученные результаты, и утверждает, что её модели в некоторых тестах превзошли аналоги, разработанные Meta. Агентство Bloomberg, первым сообщившее об этом, не смогло независимо подтвердить эти данные. Если заявленные результаты окажутся достоверными, это может стать важным шагом для Китая на пути к снижению стоимости ИИ-разработок и отказу от западной аппаратной зависимости.

Метод Mixture of Experts (MoE) делит входные данные на отдельные подзадачи, которые обрабатываются независимыми "экспертами" — подобно тому, как команда специалистов решает разные части общей задачи. Такая архитектура активно исследуется в AI-сообществе и используется, в частности, Google и китайским стартапом DeepSeek из Ханчжоу. В Ant отказались комментировать, какие именно чипы используются при обучении моделей.

Обучение MoE-моделей требует мощных GPU, которые зачастую недоступны для небольших компаний из-за высокой стоимости. Исследование Ant как раз и фокусируется на уменьшении этой финансовой нагрузки. Это отражено в названии научной работы компании, где подчёркивается цель: "Масштабирование моделей без дорогих GPU" (Scaling Models “without premium GPUs”).

Курс, взятый Ant, отличается от подхода Nvidia, генеральный директор которой, Дженсен Хуанг, считает, что спрос на вычислительные мощности будет только расти, даже с появлением более эффективных моделей, таких как DeepSeek R1. По его мнению, компании будут стремиться к всё более мощным чипам для роста выручки, а не к удешевлению решений. Nvidia продолжает развивать архитектуры с большим числом ядер, транзисторов и увеличенным объёмом памяти.

Согласно исследованию Ant, обучение модели на одном триллионе токенов — базовых единицах данных, на которых обучаются ИИ-модели — обошлось бы примерно в 6,35 миллиона юаней (~880 тыс. долларов США) при использовании традиционного "топового" оборудования. Оптимизированный подход Ant позволил сократить эту сумму до около 5,1 миллиона юаней, применяя менее производительные чипы.

Компания планирует использовать свои модели — Ling-Plus и Ling-Lite — в прикладных ИИ-сценариях, включая здравоохранение и финансы. В начале года Ant приобрела китайскую медицинскую онлайн-платформу Haodf.com, продвигая тем самым свою стратегию развития ИИ в сфере медицины. Также под управлением компании находятся другие ИИ-сервисы: виртуальный ассистент Zhixiaobao и финансовый консультант Maxiaocai.

"Даже если ты находишь одну точку, чтобы победить мастера кунг-фу, ты всё равно победил — поэтому важна прикладная польза", — прокомментировал Робин Ю, технический директор пекинской AI-компании Shengshang Tech.

Ant сделала свои модели open-source. У Ling-Lite — 16,8 миллиарда параметров (числовых настроек, определяющих работу модели), а у Ling-Plus — 290 миллиардов. Для сравнения, по оценкам MIT Technology Review, закрытая модель GPT-4.5 содержит около 1,8 триллиона параметров.

В то же время, в статье Ant подчёркивается, что обучение моделей по-прежнему сопряжено с трудностями: незначительные изменения в аппаратной части или архитектуре во время обучения могли вызывать нестабильность и резкие скачки в ошибках.

Меня зовут Максим Кучер, компания max-den.ru — Интеграция Искусственного Интеллекта в Бизнес. Буду благодарен подписке!