Nvidia анонсировала архитектуру Rubin: новый подход к обработке сверхдлинных контекстов в ИИ

12 сентября12 сен

2 мин

На технологическом саммите Nvidia в мае 2025 года компания представила архитектуру Rubin — следующее поколение графических процессоров, специально оптимизированное для задач, требующих обработки сверхдлинных последовательностей данных — до 1 миллиона и более токенов. Это ключевое развитие в области искусственного интеллекта, где качество генерации, понимание контекста и эффективность работы с длинными документами, видео, кодом и научными данными становятся критическими.

Архитектура Rubin вводит принцип распределённого вывода (distributed inference), в котором две разные типы процессоров работают совместно:

GPU Rubin — отвечают за высокопроизводительную генерацию ответов,
CPX (Context Processing eXtended) — специализированные ускорители, оптимизированные исключительно для операций внимания (attention) и управления длинным контекстом.

Такой разделение позволяет значительно повысить эффективность: вместо того чтобы нагружать один и тот же GPU и на обработку контекста, и на генерацию, система распределяет нагрузку по специализированным компонентам. Это снижает задержки, увеличивает пропускную способность и делает работу с длинными текстами (например, полными книгами, кодовыми базами размером в сотни тысяч строк или часами видео) практически мгновенной.

Первые системы на базе Rubin будут использовать GDDR7 с объёмом до 128 ГБ на чип, что обеспечивает высокую пропускную способность при более низкой стоимости по сравнению с HBM3e/HBM4. Хотя HBM остаётся стандартом для топовых моделей, GDDR7 в CPX-узлах позволяет масштабировать системы для задач, где важна ёмкость памяти, а не максимальная скорость доступа.

По данным Nvidia, новая архитектура обеспечивает более чем трёхкратное ускорение операций внимания по сравнению с предыдущим поколением GB200 NVL72, что напрямую влияет на скорость обработки документов длиной 100K+ токенов — например, аналитика законодательных актов, обработка научных статей, генерация кода по целым репозиториям или анализ длительных видеозаписей с транскрипцией.

Ключевой платформой станет NVL144 Rubin, кластер из 144 GPU Rubin и 144 CPX-блоков, обеспечивающий до 4 эксафлопс производительности в FP8/FP4-точности и до 80 ТБ быстрой памяти на одну стойку — в 6–7 раз больше, чем у предшественника NVL72. Такие системы предназначены для центров обработки данных крупнейших облачных провайдеров, исследовательских лабораторий и компаний, работающих с гигантскими языковыми моделями (LLM).

Особое внимание уделяется энергоэффективности: благодаря оптимизации архитектуры и использованию новых методов сжатия внимания, Rubin-системы достигают рекордного соотношения производительности на ватт — что делает их экономически выгодными для 24/7 эксплуатации.

Nvidia заявила, что уже заключены партнёрские соглашения с Amazon Web Services, Microsoft Azure, Google Cloud и ведущими китайскими ИИ-компаниями на тестирование систем Rubin в коммерческих сценариях — от автоматизированной юридической аналитики до AI-ассистентов для научных исследований.

Коммерческие поставки первого поколения систем Rubin начнутся во второй половине 2026 года. Предварительные оценки показывают, что внедрение таких решений может увеличить доходы облачных провайдеров на $5 млрд на каждые $100 млн инвестиций в инфраструктуру — благодаря резкому снижению стоимости обработки одного токена и возможности предлагать новые услуги (например, «анализ всей истории клиента» или «генерация кода по всему проекту»).

Источник: https://industry-hunter.com/nvidia-predstavila-pervyj-v-mire-graficeskij-processor-dla-sverhdlinnogo...

Больше интересного – на медиапортале https://www.cta.ru/