76 подписчиков

Deepseek: История, Инновации и Вызов Западному Лидерству в ИИ

9 мая 20259 мая 2025

17 мин

Исторически сложилось так, что в сфере разработки языковых моделей искусственного интеллекта (ИИ) наблюдалось растущее доминирование западных лабораторий, таких как OpenAI, при этом модели становились все более дорогими и закрытыми. Исследования все больше отступали за завесу конкурентной секретности. Однако 20 января 2025 года эта картина была нарушена с выходом модели Deepseek R1. Deepseek R1, разработанная китайской компанией Deepseek, не только была невероятно дешевой и конкурентоспособной с лучшими западными предложениями, но и была выпущена открыто, доступной для скачивания любому желающему. Этот релиз, вызвавший значительный ажиотаж и поделивший мнения, продемонстрировал, что заявленное лидерство OpenAI "не является широким и сужается". История Deepseek и стоящего за ней основателя, миллиардера Лян Вэньфэна, представляет собой значительный прецедент, ставящий под сомнение прежние представления о том, кто может разрабатывать передовой ИИ и какими методами. История Deepseek неразр

Оглавление

Введение
Происхождение и Мотивация Лян Вэньфэна
Highflyer: Успех, Уроки и Влияние на Deepseek

Введение

Происхождение и Мотивация Лян Вэньфэна

История Deepseek неразрывно связана с личностью ее основателя, Лян Вэньфэна. Он описывается как "очень занудный парень с ужасной прической", который, еще не имея крупной компании, уже говорил о создании кластера из 10 000 чипов для обучения собственных моделей ИИ. Хотя сейчас Ляну, по мнению его делового партнера, около 40 лет, он не всегда стремился к "решению проблемы интеллекта и превращению его в свободный доступ". Трудно стать миллиардером таким путем.

Истоки его пути можно найти в его личной реакции на мировой финансовый кризис сентября 2008 года. Выпустившись из университета в мир, который "разваливался на части", Лян испытал сильное желание понять закономерности в хаосе и предсказать будущее. Несмотря на попытки переманить его в других направлениях, например, со стороны основателя DJI (производителя дронов), у Ляна были более масштабные амбиции.

После получения степени магистра в области информационной инженерии в 2010 году, Лян в период с 2013 по 2016 год запустил ряд проектов, кульминацией которых стало создание хедж-фонда Highflyer в феврале 2016 года. Каждое из этих предприятий включало основную цель использования машинного обучения для выявления закономерностей в движениях финансовых рынков на микро- и даже наносекундном уровне, паттернов, которые люди не могли бы обнаружить самостоятельно – по сути, ИИ, еще до того, как его так широко называли. По состоянию на май 2023 года Лян все еще описывал свои цели в финансовых терминах, стремясь понять, какие парадигмы могут полностью описать весь финансовый рынок и можно ли выразить это проще.

Highflyer: Успех, Уроки и Влияние на Deepseek

Подход Ляна сработал: к концу 2021 года Highflyer привлек $9,4 миллиарда активов под управлением и обеспечивал доходность, которая в некоторых случаях на 20-50 процентных пунктов превышала рыночные бенчмарки. Лян заработал состояние, став миллиардером к 30 с небольшим годам. Все стратегии Highflyer использовали ИИ и даже имели суперкомпьютер с 10 000 графическими процессорами Nvidia.

Однако история Highflyer также преподала важные уроки. Система ИИ, созданная командой из чуть более 100 человек, имела "проблемную черту характера": она была "откровенно слишком рискованной", удваивая ставки, когда считала себя правой. Сам хедж-фонд стал "самоуверенным". Успех привлекает больше инвестиций, и если не ограничивать размер фонда, можно получить слишком много денег, чтобы эффективно ими распоряжаться. Торговые стратегии копируются, и преимущество становится менее выраженным. После значительной просадки Highflyer публично выразил "глубокую вину" и принял меры для дальнейшего ограничения инвестиций. Они "выучили урок" и продолжают работать как хедж-фонд с определенным успехом, опережая китайский аналог индекса S&P между 2018 и началом 2024 года, хотя и с некоторыми сложностями с тех пор.

Опыт работы с ИИ в Highflyer оставил "шрамы" для Ляна, которые, возможно, нашли отражение в документах Deepseek. Зная, что ИИ может быть "непостоянным" и не всегда надежным партнером, Deepseek добавил дисклеймер для своего первого чат-бота, Deepseek V1 (выпущен в ноябре 2023 года). В нем они признавали важность безопасности общего ИИ и заявляли, что полезная модель должна обладать ценностями, соответствующими человеческим, и проявлять "дружелюбие к человечеству".

Рождение Deepseek и Философия Исследований

После того, как Лян стал богатым благодаря Highflyer, он смог позволить себе создание организации, посвященной расшифровке не только финансовых систем, но и "природы самого общего интеллекта". Это начинание получило название Deep Seek и первоначально было образовано как исследовательский орган в апреле 2023 года. По словам Ляна, Deepseek "в основном движим любопытством", а не какой-либо скрытой бизнес-логикой.

В мае 2023 года Лян ясно обозначил цель Deepseek: "сосредоточиться на исследованиях и изысканиях, а не на вертикальных областях и приложениях". Подход к исследованиям отличался от большинства компаний. Deepseek сосредоточил усилия на привлечении молодых, любопытных и, что критично, китайских выпускников, отдавая приоритет способностям, а не дипломам или даже опыту работы на Западе. Основные технические роли занимают недавние выпускники или те, кто окончил вуз один-два года назад. У них нет ключевых показателей эффективности (KPI) или квот. По мнению Ляна, инновации требуют как можно меньше вмешательства и управления, предоставляя пространство для исследований и свободу совершать ошибки.

Первые модели ИИ Deepseek, Deepseek V1 и Deepseek Coda, выпущенные в ноябре 2023 года, не отличались оригинальностью и в значительной степени опирались на инновации модели Llama 2 от Meta. Deepseek уделял особое внимание Llama 2, которая, хотя и не была столь же умна на ключевых бенчмарках, как GPT4, была "открытыми весами" (open weights). "Открытые веса" означают, что практически любой мог скачать, подстроить и развернуть модель. Важно отметить, что "открытые веса" не то же самое, что "открытый исходный код" (open source), для которого нужны данные, на которых обучалась модель. Deepseek, как и другие, не предоставил данные для обучения. Однако даже при "открытых весах" некоторые западные лаборатории считали, что лидерство все больше будет принадлежать тем, кто сохранит в тайне методологию обучения.

Deepseek также продемонстрировал фокус на долгосрочную перспективу, исключив вопросы с множественным выбором из своих тренировочных данных, чтобы модели не переобучались на формальных тестах, но показывали слабые результаты на практике. Deepseek писал, что

"переобучение на бенчмарках не будет способствовать достижению истинного интеллекта в модели".

Преобладающие Нарративы Запада и Неожиданный Прорыв Deepseek

К середине 2023 года, когда Deepseek только начинал свою деятельность, западные лаборатории, такие как OpenAI, Anthropic и Google, уже выпустили передовые модели, включая GPT4, Claude 1 и Bard. Sam Altman, CEO OpenAI, публично заявлял, что для команды с бюджетом всего в $10 миллионов "совершенно безнадежно конкурировать" с OpenAI в обучении фундаментальных моделей. Он считал, что лидерство будет принадлежать "гиперскейлерам" с их лучшими закрытыми моделями, а открытое сообщество будет отставать "на несколько лет". Считалось, что интеллект проистекает из масштаба базовой модели, измеряемого количеством графических процессоров и объемом обучающих данных. Без поддержки мультитриллионных гиперскейлеров, таких как Microsoft или Google, считалось, что конкурировать невозможно.

Однако Лян Вэньфэн, будучи богатым, но не настолько богатым, как гиперскейлеры, решил попробовать, несмотря на то, что западные лидеры ИИ считали его попытку невозможной. Он также не был отвлечен быстрой монетизацией через платные подписки.

Ключевые Технические Инновации Deepseek

К началу 2024 года команда Deepseek "работала на полной мощности". В январе они представили новый подход для получения большего интеллекта при меньших затратах. В отличие от моделей, использующих весь набор весов для ответа (как Llama 2), Deepseek адаптировал подход "смеси экспертов" (Mixture of Experts - MoE). MoE предполагает использование специализированного подмножества весов в зависимости от входных данных пользователя. Однако традиционный MoE требовал, чтобы каждый эксперт обладал определенной общей способностью. Инновация Deepseek, представленная в их статье "К предельной специализации экспертов" (Towards ultimate expert specialization), заключалась в том, что определенные подсети экспертов внутри модели всегда активировались при любом ответе, выступая в роли "генералистов". Это позволило остальным экспертам по-настоящему сосредоточиться на своих сильных сторонах. Этот подход стал одним из секретов базовой модели Deepseek R1.

В апреле 2024 года Deepseek выпустил Deepseek Math, "крошечную модель", которая, по крайней мере в математике, сравнялась по производительности с GPT4, "Голиафом" по сравнению. Одним из секретов Deepseek Math была тренировочная методика под названием Group Relative Policy Optimization (GRPO). Все языковые модели нуждаются в пост-обучении, чтобы перейти от предсказания наиболее вероятного слова к наиболее полезным или корректным наборам слов. GRPO - это новый метод обучения с подкреплением. Традиционные подходы использовали ресурсоемкие "критические" модели для оценки ответов. Deepseek отказался от них и вместо этого генерировал группу ответов параллельно, проверял их точность "да/нет" и затем, используя относительный балл каждого ответа (выше или ниже среднего по группе), усиливал успешные веса и ослаблял другие. GRPO также был включен в Deepseek R1.

В мае 2024 года Deepseek выпустил Deepseek V2 с еще одним "чудом эффективности" — multi-head latent attention. Этот механизм внимания, позволяющий моделям определять релевантность предшествующего текста для предсказания следующего слова, был модифицирован так, что различные части модели могли совместно использовать "скрытые" (latent) или невидимые веса, когда они "уделяли внимание". Совместное использование этих весов означало, что модели требовалось меньше весов в целом, что приводило к меньшим моделям и большей эффективности.

Эти инновации были "отчаянно важны" для того, чтобы Deepseek оставался в пределах досягаемости ресурсоемких гигантов, стоящих за ChatGPT, Claude и Gemini.

Проблема Чиповых Ограничений

Необходимость Deepseek сосредоточиться на эффективности во многом объясняется внешними ограничениями. Хотя Deepseek располагал 10 000 графическими процессорами Nvidia A100, которые ранее были приобретены Highflyer для торговли, правительство США начало вводить ограничения на поставки передовых чипов в Китай. Несмотря на попытки Nvidia обойти эти запреты, выпуская чипы, которые едва соответствовали лимитам, каждый раз вводились новые ограничения. Как сказал сам Лян летом 2024 года:

"Деньги никогда не были для нас проблемой. Проблема в запретах на поставки передовых чипов".

Это превратило гонку за более мощным ИИ в "войну", что привело к контрабанде чипов, с Сингапуром и Малайзией в качестве основных пунктов. Сообщается, что некоторые графические процессоры, использованные в Китае для расчетов R1, были ввезены контрабандой в чемоданах.

Разработка R1: V3 и Влияние OpenAI

К концу 2024 года Deepseek выпустил Deepseek V3, который объединил и масштабировал все ранее разработанные инновации. Этот процесс оптимизации достиг "уровня наркомана", включая написание низкоуровневого кода для оптимизации инструкций непосредственно для графических процессоров Nvidia, а не полагаясь на стандартные библиотеки CUDA. Dario Amodei, CEO Anthropic, признал, что "Deepseek V3 на самом деле был настоящей инновацией".

Deepseek продолжил поиск прорывов, вдохновленный демонстрацией OpenAI в сентябре 2024 года нового типа обучения с подкреплением, использующего "цепочки рассуждений" (chains of thought) - мыслительный процесс модели перед выдачей финального ответа (O-серия от OpenAI). Модели, обученные предсказывать следующее слово в интернете, ограничены. OpenAI показала, что если сначала побудить модель "думать вслух", а затем применить "жестокое давление оптимизации" в пользу ответов, соответствующих проверяемым корректным результатам (в математике, кодировании), можно оптимизировать для наиболее технически точного продолжения и открыть новое поле прогресса в рассуждениях.

Deepseek, благодаря Лян Вэньфэну, был готов к этому, "с киркой в руке". Добавление инновации "думать вслух" на базовую модель V3 привело к созданию Deepseek R1 Zero. Хотя мысли этой модели могли быть немного "капризными" в языке и стиле, дальнейшие доработки и тонкая настройка позволили представить Deepseek R1 – ИИ, о котором "говорят миллиарды людей". В ряде технических бенчмарков R1 немного превзошел производительность оригинальной модели 01 от OpenAI, выпущенной в сентябре, а в других не сильно отстал.

Выпуск Deepseek R1 и Мировая Реакция

Deepseek R1, выпущенный 20 января 2025 года, вызвал мировой резонанс. Модель, которая "видимо, казалось, думает, прежде чем говорить", была "невероятно дешевой", "конкурентоспособной с лучшими западными предложениями" и "доступной любому желающему скачать". OpenAI даже признал, что Deepseek показывает, что их "лидерство не является широким и сужается".

Причины Вирусности R1 и Контр-Нарративы

Почему Deepseek R1 стал вирусным? Вот несколько возможных причин:

Видимость мыслительного процесса: Возможность увидеть "мысли" модели до финального ответа выделялась на переполненном рынке. OpenAI предоставлял лишь "отфильтрованные резюме" мыслей своих моделей 01. Однако Google почти сразу после R1 выпустил Gemini 2.0 Flash с возможностью показывать мысли, но его влияние было минимальным.
Цена: По некоторым метрикам, R1 был на 95% дешевле, чем сопоставимые модели от OpenAI. Это привело к падению акций Nvidia почти на полтриллиона долларов. Лян сам признал, что не ожидал, что "ценообразование будет настолько чувствительным для всех". Тем не менее, Gemini 2 Flash был даже дешевле, но снова с минимальным влиянием. Лидеры западных лабораторий выдвинули контр-нарратив, утверждая, что снижение затрат уже было ожидаемым и R1, в лучшем случае, соответствует тренду. Dario Amodei отмечал, что хотя $6 миллионов на обучение могут показаться малыми, общие инвестиции Deepseek в графические процессоры составляют более $500 миллионов, а капитальные затраты на серверы - около $1,6 миллиарда. Обучение за $6 миллионов не появляется из ниоткуда.
Открытость и Доступность: Модель и методы, лежащие в ее основе, были "настолько открытыми и доступными". Это бросило вызов тенденции к секретности. Innovations были сделаны открытыми миру. Лян хотел, чтобы Deepseek был "пионером, который отдавал свои исследования", от которых другие могли бы учиться. Публикация исследований, демонстрирующих, как модели под давлением оптимизации могут "отступать" и корректировать себя, стала "моментом озарения".
Происхождение из Китая: Выход высокопроизводительной модели из Китая бросил вызов предположению, что страна отстает от западной границы на годы.

Проблемы и Критика Deepseek R1

Несмотря на успех, Deepseek и R1 столкнулись с критикой и проблемами.

Обвинения в Дистилляции: OpenAI попыталась установить свой контр-нарратив, предполагая, что Deepseek мог незаконно получить доступ к "цепочкам рассуждений" модели 01 от OpenAI и обучиться на них, "фактически украв интеллект". Представитель OpenAI заявил, что группы в Китае активно используют такие методы, как дистилляция, для репликации продвинутых моделей США, и что OpenAI "осведомлена и рассматривает признаки того, что DeepS могла неправомерно дистиллировать наши модели". Они принимают меры и работают с правительством США. Однако этот контр-нарратив "умер в общественном сознании", в том числе потому, что сама OpenAI сталкивается с исками за обучение на материалах, защищенных авторским правом, без компенсации.
Ограниченная Открытость на Чувствительные Темы: Вопреки восприятию открытости R1, модель "не предоставляет ответы на чувствительные китайские темы". Источник приводит пример с вопросом об уйгурах, на который модель демонстрирует "интригующий набор мыслей", но финальный ответ не соответствует этим мыслям. Модель была выпущена под лицензией MIT, что позволило другим адаптировать ее для более "откровенных" ответов.
Государственный Контроль и Реакция Правительства США: OpenAI упоминает, что Deepseek "субсидируется государством, контролируется государством и свободно доступен", что, по их мнению, "будет стоить пользователям их конфиденциальности и безопасности". Некоторые законодатели США предложили сажать в тюрьму американских пользователей Deepseek R1. OpenAI активно сотрудничает с правительством США для защиты "самых способных моделей".

Будущее Deepseek и Более Широкие Перспективы

Deepseek готовится к выпуску Deepseek R2, ожидаемому в мае или июне. Однако масштабирование интеллекта до уровня общего искусственного интеллекта (AGI) потребует "десятков миллиардов долларов" вычислительных мощностей. Dario Amodei считает, что хотя сейчас несколько компаний могут создавать хорошие модели рассуждений, эта "точка пересечения" быстро пройдет, поскольку движение по "кривой масштабирования" потребует огромных ресурсов. Он прогнозирует, что ИИ, более умный, чем большинство людей во почти всем, потребует миллионов чипов и миллиардов долларов, и, скорее всего, появится в 2026-2027 годах.

Для Deepseek, несмотря на "обширные карманы" Ляна, эти затраты достигают пределов. По сообщениям от февраля 2025 года, Лян рассматривает возможность привлечения внешних инвестиций впервые, возможно, от Alibaba Group и государственных фондов Китая.

Проблема нехватки чипов, вызванная ограничениями США, остается серьезной. Amodei сомневается, что инженеры Deepseek смогут поддерживать темп разработки без доступа к необходимым миллиардам долларов и миллионам чипов, которые "физически трудно провезти контрабандой".

Тем не менее, представление о том, что Deepseek — это исключение, а в Китае нет условий для развития ИИ, ошибочно. Есть и другие китайские разработки, не менее впечатляющие. Например, Cling AI, который умеет превращать текст в изображение или видео. Dobau 1.5 Pro от ByteDance (создателей TikTok) и Spark Deep Reasoning X1 от iFlytek и Huawei — эти модели превосходят западные аналоги на китайских технических экзаменах и используются почти 100 миллионами человек. Также стоит упомянуть мультимодальную модель Kimmy K1.5 от Moonshot AI, которая достигла 96,2% на математическом бенчмарке, обогнав OpenAI 01. Все эти проекты появились примерно в то же время, что и R1.

Лян Вэньфэн публично заявил, что "Китай должен постепенно становиться вкладчиком, а не безбилетником". Он критиковал привычку Китая ждать, пока Закон Мура обеспечит лучшее оборудование и программное обеспечение, не участвуя в реальных технологических инновациях.

Будущие исследования Deepseek, упомянутые в статье, включают "бесконечный контекст" (способность модели запоминать и ссылаться на все, что пользователь когда-либо говорил или видел) и замену архитектуры Transformer.

В более широком смысле, история Deepseek указывает на "вступление в эру автоматизированного искусственного интеллекта". Рассуждения автоматизируются с "головокружительной скоростью". Модели не всегда будут просто инструментами. Если ИИ через три года сможет выполнять 95% работы человека, то наступит момент, когда человек станет просто "инструментом", ответственным только за нажатие "отправить". Хотя мы еще не там, история Deepseek R1 является "указателем на более масштабную историю".

Заключение

Появление Deepseek R1 в начале 2025 года стало неожиданным вызовом устоявшимся представлениям о лидерстве Запада в области ИИ, высокой стоимости разработки передовых моделей и тенденции к секретности. История Deepseek - это история Лян Вэньфэна, миллиардера, который, руководствуясь любопытством и опираясь на опыт хедж-фонда Highflyer, направил свои ресурсы и видение на разработку общего интеллекта. Несмотря на ограничения, особенно связанные с запретами на поставки чипов, Deepseek достиг успеха благодаря ряду "кропотливых" технических инноваций, таких как улучшенная смесь экспертов, GRPO и multi-head latent attention. R1, основанный на этих прорывах и адаптировавший подход OpenAI к рассуждению "вслух", привлек мировое внимание своей производительностью, низкой стоимостью и кажущейся открытостью.

Дискуссии о реальной стоимости разработки R1 и обвинения в использовании дистилляции указывают на напряженность в глобальной гонке ИИ. Ограниченная открытость модели на чувствительные темы и связь с государственными структурами в Китае также вызывают вопросы.

Несмотря на необходимость огромных инвестиций для достижения AGI и вызовы, связанные с доступом к чипам, Deepseek, с его заявленными планами на R2 и исследования в области бесконечного контекста и новых архитектур, остается ключевым игроком. Появление других сильных китайских моделей подтверждает, что Deepseek не является исключением, и Китай активно участвует в инновациях. История Deepseek R1 — это не только рассказ об одной компании, но и индикатор ускоряющегося перехода к автоматизированному ИИ и вызовов, которые это несет для мирового технологического ландшафта.