Как DeepSeek стал вирусным.
Китайская лаборатория искусственного интеллекта DeepSeek на этой неделе стала широко известна после того, как её приложение-чат-бот поднялось на вершину чартов Apple App Store (а также Google Play). Модели искусственного интеллекта DeepSeek, которые были обучены с использованием эффективных вычислительных методов, заставили аналитиков с Уолл-стрит — и технологов — усомниться в том, смогут ли США сохранить своё лидерство в гонке ИИ и сохранится ли спрос на чипы для ИИ.
Но откуда взялся DeepSeek и как он так быстро стал известен во всём мире?
Трейдерское прошлое DeepSeek
DeepSeek поддерживается High-Flyer Capital Management, китайским количественным хедж-фондом, который использует искусственный интеллект для принятия торговых решений.
Энтузиаст в области искусственного интеллекта Лян Вэньфэн стал соучредителем High-Flyer в 2015 году. Вэньфэн, который, по некоторым данным, начал заниматься трейдингом ещё во время учёбы в Чжэцзянском университете, в 2019 году основал High-Flyer Capital Management — хедж-фонд, специализирующийся на разработке и внедрении алгоритмов искусственного интеллекта.
В 2023 году High-Flyer запустила DeepSeek как лабораторию, занимающуюся исследованиями в области ИИ-инструментов, отдельно от своего финансового бизнеса. DeepSeek, одним из инвесторов которой является High-Flyer, выделилась в отдельную компанию, также называемую DeepSeek.
С самого начала DeepSeek создавала собственные кластеры центров обработки данных для обучения моделей. Но, как и другие компании в сфере ИИ в Китае, DeepSeek пострадала от запрета США на экспорт оборудования. Для обучения одной из своих последних моделей компания была вынуждена использовать чипы Nvidia H800 — менее мощную версию чипа H100, доступного американским компаниям.
Сообщается, что техническая команда DeepSeek состоит в основном из молодых специалистов. Компания по имеющимся данным, активно нанимает докторантов, занимающихся исследованиями в области искусственного интеллекта, из ведущих китайских университетов. DeepSeek также нанимает людей без опыта работы в сфере компьютерных наук, чтобы их технологии лучше понимали широкий спектр предметов, как сообщает The New York Times.
Сильные стороны DeepSeek
DeepSeek представила свой первый набор моделей — DeepSeek Coder, DeepSeek LLM и DeepSeek Chat — в ноябре 2023 года. Но только прошлой весной, когда стартап выпустил семейство моделей DeepSeek-V2 следующего поколения, индустрия искусственного интеллекта начала обращать на него внимание.
DeepSeek-V2, система общего назначения для анализа текста и изображений, показала хорошие результаты в различных тестах ИИ и была намного дешевле в эксплуатации, чем сопоставимые модели того времени. Это вынудило конкурентов DeepSeek, в том числе ByteDance и Alibaba, снизить цены на использование некоторых своих моделей, а другие сделать полностью бесплатными.
DeepSeek-V3, запущенный в декабре 2024 года, только усилил дурную славу DeepSeek.
Согласно результатам внутреннего сравнительного тестирования DeepSeek, DeepSeek V3 превосходит как загружаемые, общедоступные модели, такие как Llama от Meta, так и «закрытые» модели, доступ к которым возможен только через API, например GPT-4o от OpenAI.
Не менее впечатляющей является модель «рассуждений» R1 от DeepSeek. Компания DeepSeek, выпустившая модель в январе, утверждает, что R1 работает так же хорошо, как модель o1 от OpenAI, в ключевых тестах.
Будучи моделью логического вывода, R1 эффективно проверяет факты, что помогает ей избегать некоторых ловушек, в которые обычно попадают модели. Модели логического вывода требуют немного больше времени — обычно от нескольких секунд до нескольких минут — для получения решения по сравнению с обычными моделями, не использующими логический вывод. Преимущество таких моделей в том, что они более надёжны в таких областях, как физика, естественные науки и математика.
Однако у R1, DeepSeek V3 и других моделей DeepSeek есть недостаток. Поскольку это искусственный интеллект, разработанный в Китае, он подлежит тестированию со стороны китайского регулятора интернета, чтобы гарантировать, что его ответы «воплощают основные социалистические ценности». Например, в приложении DeepSeek для чат-ботов R1 не будет отвечать на вопросы о площади Тяньаньмэнь или автономии Тайваня.
В марте DeepSeek набрал более 16,5 млн посещений. «[В] марте DeepSeek занял второе место, несмотря на то, что трафик снизился на 25 % по сравнению с февралём, если судить по ежедневным посещениям», — рассказал TechCrunch Дэвид Карр, редактор Similarweb. Это всё равно не идёт ни в какое сравнение с ChatGPT, у которого в марте было более 500 млн активных пользователей в неделю.
В мае компания DeepSeek выпустила обновлённую версию своей модели искусственного интеллекта R1 на платформе для разработчиков Hugging Face.
В сентябре компания DeepSeek представила новую экспериментальную модель под названием V3.2-exp, которая значительно снижает затраты на логический вывод при использовании в операциях с большим контекстом.
Разрушительный подход
Если у DeepSeek и есть бизнес-модель, то неясно, что именно это за модель. Компания оценивает свои продукты и услуги значительно ниже рыночной стоимости — и раздает другим бесплатно. Это также не требует денег инвесторов, несмотря на огромный интерес венчурных капиталистов.
По словам представителей DeepSeek, благодаря повышению эффективности компании удалось сохранить крайне конкурентоспособную стоимость. Однако некоторые эксперты оспаривают приведённые компанией цифры.
Как бы то ни было, разработчики взяли на вооружение модели DeepSeek, которые не являются моделями с открытым исходным кодом в общепринятом смысле этого слова, но доступны по разрешительным лицензиям, позволяющим коммерческое использование. По словам Клема Деланжа, генерального директора Hugging Face, одной из платформ, на которых размещены модели DeepSeek, разработчики на Hugging Face создали более 500 «производных» моделей R1, которые в совокупности скачали 2,5 миллиона раз.
Успех DeepSeek в борьбе с более крупными и авторитетными конкурентами был описан как «переворачивающий ИИ с ног на голову» и «сильно переоценённый». Успех компании как минимум отчасти стал причиной падения стоимости акций Nvidia на 18% в январе и вызвал публичную реакцию со стороны генерального директора OpenAI Сэма Альтмана. В марте, по данным Reuters, сотрудники Министерства торговли США получили уведомление о том, что DeepSeek будет запрещён на их государственных устройствах.
Microsoft объявила, что DeepSeek доступен в её сервисе Azure AI Foundry, платформе Microsoft, которая объединяет сервисы искусственного интеллекта для предприятий под одним брендом. Отвечая на вопрос о влиянии DeepSeek на расходы Meta на искусственный интеллект во время отчёта о доходах за первый квартал, генеральный директор Марк Цукерберг сказал, что расходы на инфраструктуру искусственного интеллекта останутся «стратегическим преимуществом» для Meta. В марте OpenAI назвала DeepSeek «субсидируемой государством» и «контролируемой государством» и рекомендовала правительству США рассмотреть возможность запрета моделей DeepSeek.
Во время отчёта Nvidia о доходах за четвёртый квартал генеральный директор Дженсен Хуанг подчеркнул, что DeepSeek — это «отличная инновация», и сказал, что эта и другие «логические» модели отлично подходят для Nvidia, потому что им требуется гораздо больше вычислительных ресурсов.
В то же время некоторые компании запрещают DeepSeek, как и целые страны и правительства, включая Южную Корею. Штат Нью-Йорк также запретил использование DeepSeek на государственных устройствах.
В мае вице-президент и президент Microsoft Брэд Смит заявил на слушаниях в Сенате, что сотрудникам Microsoft запрещено использовать DeepSeek из соображений безопасности данных и пропаганды.
Что касается будущего DeepSeek, то оно неясно. Улучшение моделей — это само собой разумеющееся. Но правительство США, похоже, всё больше опасается того, что оно считает пагубным иностранным влиянием. В марте The Wall Street Journal сообщил, что США, скорее всего, запретят использование DeepSeek на правительственных устройствах.