Найти в Дзене
Кос Шведов ✔

Инференс — новый король ИИ в 2026

Инференс — новый король ИИ в 2026

NVIDIA покупает самые ценные активы Groq за внушительные $20 млрд наличными. Даже Mellanox (весь) стоил дешевле. Сделка включает технологии и ключевых специалистов, в том числе соавтора Google TPU и основателя Groq Джонатана Росса. В целом, после этого компанию можно закрывать, но она продолжит существовать под управлением нового гендира, а её облачный сервис GroqCloud останется.

Сегодня на самом деле уже все обсудили сам факт покупки. Интереснее пофантазировать зачем.

Последние лет 10-12 NVIDIA доминировала на рынке GPU, которые универсально подходят как для обучения, так и для инференса нейросетей. Однако, с распространением открытовесовых китайских LLM, чат-бот на их основе есть даже у небольших поисковых компаний. И во весь рост встает другая проблема: модели мало (до)обучить, их надо где-то инференсить. И желательно энергоэффективнее киловатта на 1 GPU. Также важны предсказуемая задержка и высокая пропускная способность. Желательно ещё и при снижении стоимости операций.

Как нельзя кстати, в Groq разработали решение этой проблемы — Language Processing Unit (LPU) на базе тензорного потокового процессора (TSM) с архитектурой, принципиально отличающейся от традиционных GPU и CPU. (подозреваю что нейминг LPU — дань хайпу вокруг ChatGPT). TSM основан на детерминированном выполнении инструкций без использования кэшей с переменной задержкой и спекулятивного выполнения команд. Собственный компилятор LPU статически планирует все вычисления, что обеспечивает предсказуемое время обработки.

К чему всё. Технически наиболее значимым аспектом сделки может стать интеграция архитектуры LPU с экосистемой CUDA.

CUDA, как проприетарная платформа NVIDIA, уже оптимизирует разработку под GPU через жесткую связку софта и чипа. И все мы знаем, сколько софта уже написано под CUDA как дефолтный бэкенд. И все мы знаем, что программисты меньше всего любят переписывать код. А слияние позволит разработчикам использовать привычные инструменты и API.

Интеграция детерминированной архитектуры LPU в CUDA-стек может позволить NVIDIA создать, например, гибридные серверы, где GPU будут отвечать за обучение и тяжелые вычисления, а LPU — за высокоскоростной инференс с гарантированными задержками. Особенно перспективной выглядит отгрузка CUDA-LPU в облачные сервисы, где компании ищут способы снизить стоимость инференса при сохранении качества и скорости.

Пока что GPU NVIDIA остаются стандартом для всего, но на рынке постепенно происходит стратегический сдвиг: от универсальных ускорителей к специализированным решениям для конкретных этапов работы с моделями. Groq же накопила уникальный опыт в проектировании чипов, оптимизированных под самую важную для масштабирования бизнеса нагрузку. Это поглощение укрепляет позиции NVIDIA и в самом востребованном в следующие годы сегменте инфраструктуры.

Подпишись 👇

Всё об умном доме

https://dzen.ru/id/5f2a2d42182c181bad97af84

Самый полезный Техно-Чат без флуда https://t.me/SmartHomeForum

Эксклюзивный контент на Boosty

https://boosty.to/k_shvedov

Rutube

https://rutube.ru/channel/23591933

Дзен

https://zen.yandex.ru/Shvedov