Китайские модели ИИ сталкиваются с технологическими трудностями при повышении способности к рассуждению, особенно в условиях нехватки микросхем
Недавно выпущенная компанией Alibaba Group большая языковая модель Qwen3 продемонстрировала более высокие способности к математическому доказательству и написанию кода, чем её предыдущие модели и некоторые американские аналоги, что позволило ей занять лидирующие позиции в рейтингах.
Qwen3 предлагает две модели «смесь экспертов» (MoE) (Qwen3-235B-A22B и Qwen3-32B-A3B) и шесть плотных моделей.
MoE, также используемый в ChatGPT от OpenAI и Claude от Anthropic, может назначать специализированную «экспертную» модель для ответов на вопросы по определённой теме. Плотная модель может выполнять широкий спектр задач, таких как классификация изображений и обработка естественного языка, путём изучения сложных закономерностей в данных.
Компания Alibaba, базирующаяся в Ханчжоу, использовала 36 триллионов токенов для обучения Qwen3, что вдвое больше, чем для обучения модели Qwen2.5. Компания DeepSeek, также базирующаяся в Ханчжоу, использовала 14,8 триллиона токенов для обучения своей модели R1. Чем больше используется токенов, тем более осведомлённой является модель ИИ.
В то же время Qwen3 имеет более низкий порог развёртывания, чем DeepSeek V3, а значит, пользователи могут развернуть его с меньшими эксплуатационными расходами и меньшим энергопотреблением.
Qwen3-235B-A22B содержит 235 миллиардов параметров, но для активации требуется только 22 миллиарда. DeepSeek R1 содержит 671 миллиард параметров и требует активации 37 миллиардов. Чем меньше параметров, тем ниже эксплуатационные расходы.
Фондовый рынок США упал после того, как 20 января компания DeepSeek представила свою модель R1. Инвесторы в акции компаний, занимающихся искусственным интеллектом, были шокированы высокой производительностью DeepSeek R1 и низкими затратами на обучение.
В сообщениях СМИ говорилось, что DeepSeek представит свою модель R2 в мае. Некоторые поклонники ИИ ожидали, что DeepSeek R2 будет обладать более развитыми мыслительными способностями, чем R1, и сможет догнать OpenAI o4-mini.
‘Бессмысленный взлом бенчмарка’
С тех пор как Alibaba выпустила Qwen3 рано утром 29 апреля, поклонники ИИ провели различные тесты, чтобы проверить его производительность.
Вечерние новости Yangtze сообщили, что Qwen3 набрал 70,7 баллов в LiveCodeBench v5, который проверяет способность моделей ИИ писать код. Это больше, чем у DeepSeek R1 (64,3), OpenAI o3-mini (66,3), Gemini2.5 Pro (70,4) и Grok 3 Beta (70,6).
На AIME’24, где тестируется способность моделей ИИ к математическому доказательству, Qwen3 набрал 85,7 балла, что лучше, чем DeepSeek R1 (79,8), OpenAI o3-mini (79,6) и Grok 3 Beta (83,9). Однако он уступил Gemini2.5 Pro, который набрал 92 балла.
Репортёр газеты обнаружил, что Qwen3 не справляется со сложными логическими задачами и не обладает достаточными знаниями в некоторых областях, что приводит к «галлюцинациям» — типичной ситуации, когда модель ИИ предоставляет ложную информацию.
«Мы попросили Qwen3 написать несколько рассказов на китайском языке. Нам кажется, что эти рассказы более тонкие и плавные, чем те, что были написаны предыдущими моделями ИИ, но их сюжетные линии и сцены нелогичны, — сказал репортёр. — Модель ИИ, похоже, собирает всё воедино, не задумываясь».
По данным независимой компании по тестированию и анализу ИИ Artificial Analysis, в плане научных рассуждений Qwen3 набрал 70%, уступив Gemini 2.5 Pro (84%), OpenAI o3-mini (83%), Grok 3 mini (79%) и DeepSeek R1 (71%).
С точки зрения логики и знаний о человечестве Qwen3 набрал 11,7%, обойдя Grok 3 mini (11,1%), Claude 3.7 (10,3%) и DeepSeek R1 (9,3%). Однако он всё равно отставал от OpenAI o3-mini (20%) и Gemini 2.5 Pro (17,1%).
В феврале этого года генеральный директор Microsoft Сатья Наделла заявил, что сосредоточенность на самопровозглашённых целях, таких как создание искусственного общего интеллекта (AGI), — это лишь форма «бессмысленного взлома бенчмарков».
Он сказал, что модель ИИ может объявить о победе, только если она поможет достичь 10-процентного ежегодного роста валового внутреннего продукта.
Нехватка стружки
В то время как китайским компаниям, занимающимся искусственным интеллектом, нужно больше времени, чтобы догнать американских игроков, они сталкиваются с новой проблемой — нехваткой микросхем для искусственного интеллекта.
В начале апреля китайские СМИ сообщили, что ByteDance, Alibaba и Tencent заказали у Nvidia более 100 000 чипов H20 на сумму 16 миллиардов юаней (2,2 миллиарда долларов США).
15 апреля компания Nvidia сообщила, что правительство США проинформировало её о том, что для поставок своих чипов H20 в Китай компании потребуется лицензия. Правительство сослалось на риск того, что китайские компании будут использовать чипы H20 в суперкомпьютерах.
2 мая издание сообщило, что Nvidia сообщила некоторым своим крупнейшим китайским клиентам, что она корректирует дизайн своих чипов для ИИ, чтобы они могли продолжать поставлять чипы для ИИ в Китай. Образец нового чипа будет доступен уже в июне.
Подпишитесь на канал "Жизнь Дурова: ЗОЖ, деньги, ИТ" - все самое главное о здоровье, технологиях и деньгах