Добавить в корзинуПозвонить
Найти в Дзене

Китайская альтернатива Nvidia для инференса: Sunrise привлекла свыше 1 млрд юаней на ускоритель Qiwang S3

Пока весь мир обсуждает дефицит обучающих ускорителей, тихо формируется другой рынок — инференс. Запуск обученной модели в продуктивную среду требует принципиально иного железа, чем её создание. Китайский стартап Sunrise сделал на это ставку несколько лет назад и теперь стал лидером оценки в этом сегменте. По данным ifeng.com, Sunrise завершила новый раунд финансирования объёмом свыше 1 млрд юаней. Оценка компании превысила 10 млрд юаней — в сегменте специализированных inference GPU в Китае она первой достигла этой отметки. Это один из крупнейших единовременных раундов в китайском GPU-секторе в 2026 году. Всего с момента основания компания привлекла около 4 млрд юаней в ходе семи раундов финансирования. Sunrise связана с китайским ИИ-гигантом SenseTime. Средства нового раунда направят на три цели: Обучение и инференс — разные вычислительные задачи. Обучение модели требует максимальной параллельной вычислительной мощности и широкой пропускной способности памяти типа HBM. Запуск уже обуч
Оглавление

Пока весь мир обсуждает дефицит обучающих ускорителей, тихо формируется другой рынок — инференс. Запуск обученной модели в продуктивную среду требует принципиально иного железа, чем её создание. Китайский стартап Sunrise сделал на это ставку несколько лет назад и теперь стал лидером оценки в этом сегменте.

Миллиард юаней и оценка выше 10 млрд

По данным ifeng.com, Sunrise завершила новый раунд финансирования объёмом свыше 1 млрд юаней. Оценка компании превысила 10 млрд юаней — в сегменте специализированных inference GPU в Китае она первой достигла этой отметки.

Это один из крупнейших единовременных раундов в китайском GPU-секторе в 2026 году. Всего с момента основания компания привлекла около 4 млрд юаней в ходе семи раундов финансирования.

Sunrise связана с китайским ИИ-гигантом SenseTime. Средства нового раунда направят на три цели:

  • массовое производство и поставки флагманского ускорителя следующего поколения Qiwang S3;
  • разработку полного программного стека для экосистемы;
  • продолжение исследований и разработки последующих поколений — S4 и S5.
Источник: TrendForce
Источник: TrendForce

Почему инференс — это отдельный рынок

Обучение и инференс — разные вычислительные задачи. Обучение модели требует максимальной параллельной вычислительной мощности и широкой пропускной способности памяти типа HBM. Запуск уже обученной модели — другая история: здесь критичны латентность, стоимость токена и энергоэффективность при высоком параллелизме запросов.

Именно поэтому использование дорогих HBM-ускорителей для инференса экономически нецелесообразно. Sunrise строит железо под задачу с нуля, не адаптируя обучающие GPU, а проектируя специализированную архитектуру.

По словам председателя совета директоров Sunrise Сюй Бина, в 2026 году спрос на инференс-вычисления ожидается в четыре-пять раз выше, чем на обучение. Стоимость аренды инференс-вычислений за последние полгода выросла почти на 40%. Компания прошла три поколения inference GPU и вышла на массовое производство десятков тысяч единиц.

Qiwang S3: LPDDR6 вместо HBM

Флагманский ускоритель Qiwang S3, представленный в январе 2026 года, стал первым в Китае inference GPU на памяти LPDDR6 с обратной совместимостью с LPDDR5X. Выбор архитектуры продиктован спецификой inference-задач.

В облачных сценариях с высоким параллелизмом и длинными контекстами KV-кэш занимает свыше 80% общего объёма памяти. LPDDR6 даёт достаточную пропускную способность для инференса, увеличивает ёмкость памяти и снижает энергопотребление примерно на 50% по сравнению с предыдущим поколением. Три ключевых параметра — большой объём, экономичность и низкое энергопотребление — закрываются одним архитектурным решением.

На вычислительном уровне S3 адресует проблему, характерную для универсальных GPU: низкую утилизацию ресурсов при inference-нагрузках. Ключевые показатели микросхемы:

  • производительность инференса в пять раз выше, чем у предыдущего поколения S2;
  • целевое снижение стоимости токена — около 90%;
  • утилизация оператора GEMM — около 99%;
  • утилизация Flash Attention — около 98%.

В задачах инференса больших языковых моделей именно GEMM и операции внимания формируют свыше 90% всей вычислительной нагрузки. Доведение их утилизации до предельных значений — ключевой инженерный результат архитектуры S3.

Что происходит на рынке inference GPU

Сдвиг спроса от обучения к инференсу — один из главных структурных трендов 2026 года. По мере того как крупные языковые модели переходят из стадии разработки в продуктивную эксплуатацию, потребность в инференс-вычислениях растёт быстрее, чем в обучающих мощностях.

Для китайского рынка это особенно актуально: доступ к топовым обучающим ускорителям Nvidia ограничен санкциями, тогда как inference GPU с менее жёсткими требованиями к техпроцессу поддаются локальной разработке и производству.

Sunrise не единственный игрок в этом сегменте — но первый, достигший оценки в 10 млрд юаней. Конкурируя не с Nvidia напрямую, а занимая специализированную нишу, компания строит бизнес на том, что крупные универсальные ускорители делают неэффективно.