Nvidia превратила Vera Rubin из идеи в большой комплект — «POD» с сотнями GPU, собственными CPU-станциями и новым подходом к хранению и сети. Но главное — появление Groq 3 LPX: выделённый низколатентный пайплайн для инференса. Это не просто ещё одна GPU-ферма — это аппарат для дешёвого и быстрого генерации токенов в реальном времени. Почему это важно для бизнеса и архитектуры: • 🔹 Меньше затрат и задержек на inference = новые сценарии для агентных систем. • 🔹 CMX + Dynamo упрощают хранение контекстов и распределение памяти. • 🔹 Появление CPU- и power-оптимизаций признаёт, что агентам нужны не только GPU. Есть и риск: усиливается привязка к экосистеме Nvidia, несмотря на декларации об открытых моделях. Технический прогресс — полезен, но архитектурные решения задают правила игры. Подробнее тут