Выход дракона
Китайский ИИ теперь настолько близок по качеству к своим американским конкурентам, что глава OpenAI Сэм Альтман счёл необходимым объяснить, почему разрыв так незначителен. Вскоре после того, как DeepSeek выпустил версию 3, он раздражённо написал в Твиттере:
«(Относительно) легко скопировать то, что, как вы знаете, работает.
Крайне трудно делать что-то новое, рискованное и сложное, когда вы не знаете, сработает ли это».
Китайская индустрия искусственного интеллекта изначально казалась второсортной. Отчасти это может быть связано с тем, что ей пришлось столкнуться с американскими санкциями. В 2022 году Америка запретила экспорт передовых микросхем в Китай.
Nvidia, ведущему производителю микросхем, пришлось разработать специальные версии своей продукции для китайского рынка. Америка также стремилась помешать Китаю развивать собственные мощности по производству топовых чипов, запрещая экспорт необходимого оборудования и угрожая штрафами неамериканским компаниям, которые могли бы помочь в этом.
Ещё одним препятствием является то, что сделано в Китае. Китайские компании поздно перешли на LLM, отчасти из-за проблем с регулированием. Они беспокоились о том, как цензоры отреагируют на модели, которые могут «галлюцинировать» и предоставлять неверную информацию или, что ещё хуже, делать политически опасные заявления.
Поисковый гигант Baidu годами экспериментировал с LLM внутри компании и создал модель под названием «Эрнди», но не решался выпустить её в открытый доступ. Даже когда успех ChatGPT побудил компанию пересмотреть своё решение, она сначала разрешала доступ к ERNIEbot только по приглашению.
В конце концов китайские власти издали нормативные акты для развития индустрии ИИ. Хотя они призывали разработчиков моделей уделять особое внимание качественному контенту и придерживаться «социалистических ценностей», они также пообещали «поощрять инновационное развитие генеративного ИИ».
Китай стремился конкурировать на мировом уровне, говорит Вивиан То, редактор новостного сайта TechTechChina. Alibaba была одной из первых компаний, адаптировавшихся к новой благоприятной среде и запустивших собственный LLM, который сначала назывался Tongyi Qianwen, а затем сократился до «Qwen».
В течение года или около того от того, что выпускала Alibaba, не было ничего особенного: довольно заурядная «ответвление» на основе Llama LLM от Meta с открытым исходным кодом. Но в течение 2024 года, по мере того как Alibaba выпускала новые версии Qwen, качество начало улучшаться.
«Эти модели, похоже, могут конкурировать с очень мощными моделями, разработанными ведущими лабораториями на Западе», — сказал Джек Кларк из Anthropic, западной лаборатории ИИ, год назад, когда Alibaba выпустила версию Qwen, способную анализировать изображения и текст.
Другие интернет-гиганты Китая, в том числе Tencent и Huawei, создают собственные модели. Но у DeepSeek другое происхождение. Его даже не существовало, когда Alibaba выпустила первую модель Qwen.
Он произошёл от High-Flyer, хедж-фонда, созданного в 2015 году для использования ИИ в торговле акциями. Проведение фундаментальных исследований помогло High-Flyer стать одним из крупнейших квантовых фондов в стране.
Но, по словам Лян Вэньфэна, основателя High-Flyer, мотивация была не только коммерческой. Он заметил, что первые спонсоры OpenAI не рассчитывали на прибыль; их целью было «выполнить миссию».
В том же 2023 году, когда был запущен Qwen, High-Flyer объявила, что тоже участвует в гонке за созданием ИИ человеческого уровня, и выделила своё исследовательское подразделение ИИ под названием DeepSeek.
Как и OpenAI до неё, DeepSeek пообещала развивать ИИ на благо общества. По словам г-на Лянга, компания опубликует большую часть результатов обучения, чтобы попытаться предотвратить «монополизацию» технологии несколькими людьми или фирмами.
В отличие от OpenAI, которая была вынуждена искать частное финансирование, чтобы покрыть растущие расходы на обучение, DeepSeek всегда имела доступ к огромным вычислительным мощностям High-Flyer.
Гигантский llm от DeepSeek примечателен не только своими масштабами, но и эффективностью обучения, в ходе которого в модель подаются данные, на основе которых она определяет свои параметры.
Этот успех был достигнут не благодаря одной крупной инновации, говорит Ник Лейн из Кембриджского университета, а благодаря ряду незначительных улучшений. Например, в процессе обучения часто использовалось округление для упрощения вычислений, но при необходимости сохранялась точность чисел.
Серверная ферма была переконфигурирована таким образом, чтобы отдельные чипы могли более эффективно взаимодействовать друг с другом. После обучения модели она была доработана на основе результатов DeepSeek R1, системы логического вывода, которая научилась имитировать её качество с меньшими затратами.
Благодаря этим и другим инновациям создание миллиардов параметров v3 заняло менее 3 млн процессорных часов и обошлось менее чем в 6 млн долларов — примерно в десятую часть вычислительной мощности и затрат, которые потребовались для Llama 3.1. Для обучения v3 потребовалось всего 2000 процессоров, в то время как для Llama 3.1 — 16 000.
А из-за санкций, введённых Америкой, процессоры, которые использовались в v3, были даже не самыми мощными. Западные компании, похоже, становятся всё более расточительными в отношении чипов: Meta планирует построить серверную ферму, используя 350 000 из них. Как Джинджер Роджерс, танцующая задом наперёд на высоких каблуках, DeepSeek, по словам Андрея Карпати, бывшего главы ИИ в Tesla, «выглядит так, будто» обучить передовую модель «с таким бюджетом — проще простого».
Модель не только была обучена по низкой цене, но и её эксплуатация обходится дешевле. DeepSeek распределяет задачи между несколькими чипами более эффективно, чем его конкуренты, и начинает следующий этап процесса до завершения предыдущего.
Это позволяет поддерживать работу чипов на полную мощность с минимальной избыточностью. В результате в феврале, когда DeepSeek начнёт позволять другим компаниям создавать сервисы, использующие v3, он будет брать за использование Claude, своего LLM, меньше десятой части от того, что берёт Anthropic.
«Если модели действительно эквивалентны по качеству, то это серьёзный поворот в продолжающихся войнах за LLM-модели»,
— говорит Саймон Уиллисон, эксперт по ИИ.
Стремление DeepSeek к эффективности на этом не остановилось. На этой неделе, когда компания опубликовала R1 в полном объёме, она также выпустила набор более компактных, дешёвых и быстрых «очищенных» вариантов, которые почти так же мощны, как и более крупная модель.
Это было похоже на аналогичные выпуски от Alibaba и Meta и ещё раз доказало, что компания может конкурировать с крупнейшими игроками на рынке.
Путь дракона
Alibaba и DeepSeek бросают вызов самым передовым западным лабораториям ещё в одном аспекте. В отличие от OpenAI и Google, китайские лаборатории следуют примеру Meta и делают свои системы доступными по лицензии с открытым исходным кодом.
Если вы хотите скачать Qwen AI и создать на его основе собственное программное обеспечение, вы можете это сделать — никакого специального разрешения не требуется.
Эта вседозволенность сочетается с поразительной открытостью: обе компании публикуют статьи всякий раз, когда выпускают новые модели, в которых подробно описываются методы, используемые для повышения их производительности.
Когда Alibaba выпустила QwQ, что означает «Вопросы с Qwen», она стала первой компанией в мире, опубликовавшей такую модель под открытой лицензией, позволяющей любому скачать полный 20-гигабайтный файл и запустить его в своих системах или разобрать, чтобы посмотреть, как он работает. Это заметно отличается от подхода OpenAI, который скрывает внутреннее устройство o1.
В общих чертах, обе модели используют так называемое «вычисление во время тестирования»: вместо того, чтобы концентрировать вычислительную мощность во время обучения модели, они потребляют гораздо больше ресурсов при ответе на запросы, чем предыдущие поколения LLM (см. раздел «Бизнес»).
Это цифровая версия того, что психолог Даниэль Канеман назвал мышлением «второго типа»: более медленным, обдуманным и аналитическим, чем быстрое и инстинктивное мышление «первого типа». Оно дало многообещающие результаты в таких областях, как математика и программирование.
Если вам зададут простой вопрос о фактах — например, попросят назвать столицу Франции, — вы, скорее всего, ответите первым словом, которое придёт вам в голову, и, вероятно, будете правы. Типичный чат-бот работает примерно так же: если его статистическое представление о языке даёт наиболее предпочтительный ответ, он соответствующим образом завершает предложение.
Но если вам задают более сложный вопрос, вы, как правило, обдумываете его более структурированно. Если вас попросят назвать пятый по численности населения город Франции, вы, скорее всего, начнёте с составления длинного списка крупных французских городов, затем попытаетесь отсортировать их по численности населения и только после этого дадите ответ.
Хитрость для o1 и его подражателей заключается в том, чтобы заставить LLM участвовать в той же форме структурированного мышления: вместо того, чтобы выдать наиболее правдоподобный ответ, который приходит на ум, система разбирает проблему по частям и шаг за шагом приходит к ответу.
Но o1 держит свои мысли при себе, раскрывая пользователям только краткое описание своего процесса и окончательный вывод. OpenAI приводит несколько обоснований такого выбора. Иногда, например, модель размышляет о том, стоит ли использовать оскорбительные слова или раскрывать опасную информацию, но затем решает этого не делать.
Если раскрыть все её рассуждения, то и конфиденциальная информация тоже будет раскрыта. Но осмотрительность модели также позволяет скрыть от потенциальных подражателей точную механику её рассуждений.
У Alibaba таких проблем нет. Попросите QwQ решить сложную математическую задачу, и он с радостью подробно опишет каждый шаг своего пути, иногда рассуждая сам с собой на тысячи слов, пробуя разные подходы к задаче.
«Итак, мне нужно найти наименьшее нечётное простое делитель числа 20198 + 1. Хм, это кажется довольно сложным, но я думаю, что смогу разбить задачу на этапы, — начинает модель, генерируя 2000 слов для анализа, прежде чем сделать правильный вывод, что ответ — 97.
Открытость Alibaba — это не совпадение, говорит Эйсо Кант, соучредитель Poolside, португальской компании, которая разрабатывает инструмент искусственного интеллекта для программистов.
Китайские лаборатории ведут борьбу за те же таланты, что и остальная отрасль, отмечает он. «Если вы исследователь и подумываете о переезде за границу, чего вам не могут дать западные лаборатории?
Мы больше не можем раскрывать наши разработки. Мы держим всё под замком из-за характера гонки, в которой мы участвуем».
Даже если инженеры из китайских компаний не первыми открывают какую-то технологию, они часто первыми публикуют её, говорит г-н Кант. «Если вы хотите увидеть, как появляются какие-то секретные технологии, следите за китайскими исследователями с открытым исходным кодом.
Они публикуют всё и делают это потрясающе». В статье, сопровождавшей выпуск версии 3, перечислены 139 авторов поимённо, отмечает г-н Лейн. Такое признание может быть более привлекательным, чем работа в безвестности в американской лаборатории.
Стремление американского правительства остановить поток передовых технологий в Китай также сделало жизнь китайских исследователей в Америке менее приятной. Проблема заключается не только в административной нагрузке, которую создают новые законы, призванные сохранить в тайне последние инновации. Часто царит атмосфера подозрительности. Обвинения в шпионаже звучат даже на светских мероприятиях.
Большой босс
У работы в Китае есть и свои недостатки. Например, спросите DeepSeek v3 о Тайване, и модель бодро начнёт объяснять, что это остров в Восточной Азии, «официально известный как Китайская Республика». Но после того, как она составит несколько предложений в этом духе, она остановится, удалит свой первоначальный ответ и вместо этого коротко предложит: «Давайте поговорим о чём-нибудь другом».
Китайские лаборатории более прозрачны, чем их правительство, отчасти потому, что они хотят создать экосистему компаний, ориентированных на ИИ.
Это имеет определённую коммерческую ценность, поскольку компании, использующие модели с открытым исходным кодом, в конечном итоге могут быть убеждены в необходимости покупать продукты или услуги у их создателей. Это также приносит Китаю стратегическую выгоду, поскольку создаёт союзников в его конфликте с Америкой из-за ИИ.
Китайские компании, естественно, предпочли бы создавать свои модели на основе китайских, поскольку в этом случае им не нужно беспокоиться о том, что новые запреты или ограничения могут отрезать их от базовой платформы. Они также знают, что вряд ли столкнутся с требованиями цензуры в Китае, которые не учитываются в западных моделях.
Для таких компаний, как Apple и Samsung, стремящихся внедрить инструменты ИИ в устройства, которые они продают в Китае, местные партнёры являются обязательными, отмечает Фрэнсис Янг, технический инвестор из Шанхая. И даже у некоторых зарубежных компаний есть особые причины для использования китайских моделей: Qwen был намеренно обучен на «малоресурсных» языках, таких как урду и бенгальский, в то время как американские модели обучаются преимущественно на англоязычных данных. Кроме того, огромным преимуществом китайских моделей является их более низкая стоимость.
Это не обязательно означает, что китайские модели завоюют мир. У американского ИИ по-прежнему есть возможности, с которыми пока не могут сравниться его китайские конкуренты. Исследовательская программа Google передаёт веб-браузер пользователя своему чат-боту Gemini, повышая вероятность того, что «агенты» ИИ будут взаимодействовать с интернетом. Чат-боты от Anthropic и OpenAI не только помогут вам написать код, но и запустят его за вас. Claude будет создавать и размещать целые приложения.
И пошаговое рассуждение — не единственный способ решения сложных задач. Задайте обычной версии ChatGPT приведённый выше математический вопрос, и она напишет простую программу для поиска ответа.
По словам г-на Альтмана, в разработке находится ещё больше инноваций. Ожидается, что вскоре компания OpenAI объявит о создании «супер-агентов PhD-уровня», которые так же способны выполнять ряд интеллектуальных задач, как и эксперты-люди. Конкуренция, наступающая на пятки американскому ИИ, может подтолкнуть его к ещё большим достижениям.
Подпишитесь на канал "Жизнь Дурова: ЗОЖ, деньги, ИТ" - все самое главное о здоровье, технологиях и деньгах