1918 подписчиков

Так NVIDIA Blackwell Ultra GB300 AI-стойки доминируют в задачах DeepSeek с длинным контекстом, демонстрируя впечатляющие преимущества перед GB200

21 февраля21 фев

2 мин

Протестированы ИИ-стойки NVIDIA GB300 NVL72 на моделях DeepSeek: Blackwell Ultra превосходит GB200 NVL72 до 1,5x в чувствительных к задержкам задачах. Фокус на оптимизации длинного контекста для агентного ИИ. — wccftech.com Стойки для систем ИИ NVIDIA GB300 NVL72 прошли тестирование на новейших моделях с открытым исходным кодом от DeepSeek, и результаты тонкой настройки и оптимизированного вывода действительно многообещающие. С GB300 основным фокусом NVIDIA стала обеспечение оптимальной производительности для длинного контекста, чтобы извлечь выгоду из волны агентного ИИ. В недавней публикации мы обсуждали, как Blackwell Ultra обеспечивает 50-кратное увеличение пропускной способности на мегаватт по сравнению с графическими процессорами Hopper благодаря своему экстремальному подходу к совместному проектированию. Теперь организация Large Model Systems Organization (LMSYS) протестировала GB300 NVL72 для вывода с длинным контекстом, и результаты выглядят крайне многообещающими. Тестировани

Оглавление

Blackwell Ultra от NVIDIA демонстрирует преимущество до 1,5x над GB200 NVL72 в рабочих нагрузках с чувствительностью к задержке
NVIDIA GB300 NVL72 против GB200 NVL72:

Стойки для систем ИИ NVIDIA GB300 NVL72 прошли тестирование на новейших моделях с открытым исходным кодом от DeepSeek, и результаты тонкой настройки и оптимизированного вывода действительно многообещающие.

Blackwell Ultra от NVIDIA демонстрирует преимущество до 1,5x над GB200 NVL72 в рабочих нагрузках с чувствительностью к задержке

С GB300 основным фокусом NVIDIA стала обеспечение оптимальной производительности для длинного контекста, чтобы извлечь выгоду из волны агентного ИИ. В недавней публикации мы обсуждали, как Blackwell Ultra обеспечивает 50-кратное увеличение пропускной способности на мегаватт по сравнению с графическими процессорами Hopper благодаря своему экстремальному подходу к совместному проектированию. Теперь организация Large Model Systems Organization (LMSYS) протестировала GB300 NVL72 для вывода с длинным контекстом, и результаты выглядят крайне многообещающими. Тестирование включает маршрутизацию программного обеспечения на уровне инфраструктуры, о которой мы поговорим далее.

Учитывая, что при рабочих нагрузках с длинным контекстом давление имеет тенденцию смещаться в сторону видеопамяти GPU (VRAM), команда LMSYS интегрировала PD (Prefill-Decode) Disaggregation — широко используемый механизм для поддержания крупномасштабного токенного контекста. Проще говоря, при PD Disaggregation вы разделяете работу между разными аппаратными «узлами», чтобы избежать узких мест. Фаза предварительного заполнения (prefill), которая, говоря простыми словами, является обработкой промпта, и фаза декодирования (decode), которая является генерацией токенов, становятся гораздо более оптимизированными при дезагрегации, что приводит к увеличению пропускной способности в масштабе.

Команда LMSYS также применила несколько других методов оптимизации, включая динамическое разбиение на чанки (dynamic chunking) для оптимизированных ответов на промпты в окнах с длинным контекстом и эффективный перевод емкости KV. С точки зрения улучшений поколения, команда отметила следующие основные контрольные показатели: анализ пропускной способности, емкость и соотношение задержки.

NVIDIA GB300 NVL72 против GB200 NVL72:

Пиковая пропускная способность в 1,53 раза: 226,2 TPS/GPU (токенов в секунду)
Скорость пользователя в 1,87 раза: массивный скачок TPS/пользователь благодаря MTP (Multi-Token Prediction).
Выигрыш в задержке в 1,58 раза

По данным команды LMSYS, GB300 в среднем обеспечивает преимущество в 1,4–1,5 раза над GB200, особенно в сценариях с чувствительностью к задержке, и, учитывая ориентацию на агентные рабочие нагрузки, Blackwell Ultra лучше всего подходит для их реализации. В то время как Blackwell Ultra, безусловно, доминирует в задержке и пропускной способности, мы еще не видели обсуждения показателей TCO (совокупной стоимости владения) в отрасли, особенно с учетом того, что с GB300 затраты на развертывание растут параллельно.

Подход NVIDIA с каждым поколением, похоже, сосредоточен не только на архитектурных достижениях, но и на устранении ограничений, специфичных для отрасли, и в случае Blackwell Ultra показатели задержки значительно улучшились. Это одна из причин, по которой в агентных средах GB300 становится ведущим выбором для гиперскейлеров и неонеоблачных провайдеров.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Muhammad Zuhair

Оригинал статьи

Deep Seek

20,9 тыс интересуются