15 подписчиков

AMD Quark: открытый ключ к оптимизации ИИ-моделей для любых платформ

14 мая 202514 мая 2025

1 мин

Компания AMD совершила стратегический шаг, открыв исходный код библиотеки Quark - универсального инструмента для квантования нейросетей. Теперь разработчики могут сжимать модели в 4 раза без потери точности, адаптируя их под любые задачи: от серверных кластеров до персональных Ryzen AI-ПК. Для тестирования оптимизированных моделей не обязательно иметь собственные GPU - мощности AMD Instinct MI300X доступны через аренду на платформе G-PU.ru, где можно развернуть виртуальные стенды за $1.5/час. Quark 1.0: один инструмент для всего железа Библиотека объединяет три ключевые платформы AMD: Instinct MI300X (дата-центры): Поддержка FP8/INT4 для LLM (Llama 3.1, Grok-1). Скорость инференса 11 000 токенов/с для Mistral 7B (vs 5 200 в FP16). Интеграция с vLLM и SGLang для масштабирования на кластеры. Ryzen AI (ноутбуки/ПК): Квантование ONNX-моделей до INT4 для NPU XDNA. Скоростной экспорт через Microsoft OnnxRuntime-GenAI. Пример: DeepSeek V2 работает на Ryzen 9 8945HS с задержкой 50 мс. EPYC (CP

Quark 1.0: один инструмент для всего железа

Библиотека объединяет три ключевые платформы AMD:

Instinct MI300X (дата-центры):

Поддержка FP8/INT4 для LLM (Llama 3.1, Grok-1).

Скорость инференса 11 000 токенов/с для Mistral 7B (vs 5 200 в FP16).

Интеграция с vLLM и SGLang для масштабирования на кластеры.

Ryzen AI (ноутбуки/ПК):

Квантование ONNX-моделей до INT4 для NPU XDNA.

Скоростной экспорт через Microsoft OnnxRuntime-GenAI.

Пример: DeepSeek V2 работает на Ryzen 9 8945HS с задержкой 50 мс.

EPYC (CPU-серверы):

Ускорение PyTorch-моделей через ZenTorch + torch.compile.

Прирост производительности 2x для DLRMv2 в INT8.

Как мы упоминали в Сравнение серверов NVIDIA HGX H200 8-GPU и AMD Instinct™ MI325X, MI325X опережает NVIDIA H200 на 18% в задачах инференса Llama 70B благодаря оптимизации Quark.

Технологические фишки: от Microscaling до QuaRot

Quark - это не просто квантователь, а конструктор для экспериментаторов:

Поддержка MX-форматов (mxFP4, mxFP6) для микроскейлинга.

Гибридные схемы: INT4 веса + FP8 активации.

Автоподбор параметров через Auto Search.

Продвинутые алгоритмы: SmoothQuant, GPTQ, QuaRot.

Библиотека интегрирована с Hugging Face - готовые квантованные модели Llama 3.1 и Mixtral 8x22B уже доступны в репозитории AMD.

MLPerf 5.0: Оптимизированные модели AMD заняли топ в категориях LLM и рекомендательных систем.

Медицинский ИИ: Квантование моделей диагностики рака до INT8 с сохранением 99.3% точности.

Голосовые ассистенты: Сжатие Whisper-large-v3 в 3 раза для embedded-устройств.

Открытие Quark - вызов экосистеме NVIDIA. Теперь даже небольшие команды могут оптимизировать модели под AMD-железо, не уступающее в производительности. Как гласит принцип AMD: «Open source - это не про код, а про возможности».

Подписывайтесь на нас:

https://vk.com/g_pu_ru;

https://dzen.ru/gpu_arenda;

https://t.me/g_pu_ru;

https://vc.ru/u/3770151-arenda-gpu-serverov-videokart