1 подписчик

🤖 zai-org выложила GLM-5.2 и варианты для разных форматов весов: GGUF и FP8

СегодняСегодня

~1 мин

GLM-5.2 — это новая версия большой языковой модели от zai-org на HuggingFace, и в релизе сразу есть несколько форматов весов для разных сценариев развёртывания. Отдельно отмечаются два варианта: GLM-5.2-GGUF и GLM-5.2-FP8. Первый обычно упрощает запуск модели локально и в CPU-сценариях через совместимые рантаймы, второй — нацелен на снижение расходов на инференс за счёт FP8-квантизации, когда на вашей стороне есть подходящий софт и железо. Ключевой практический вопрос: модель в каком именно “sweet spot” по качеству/скорости окажется у вас. Без конкретных бенчмарков и цифр по скоростям (только по формату) ожидания лучше держать реалистичными: формат весов не гарантирует, что качество не просядет, а профит по скорости часто зависит от конкретного рантайма. Если вы выбираете между GGUF и FP8, начните с проверки совместимости вашего пайплайна и ответа на один вопрос: где у вас бутылочное горлышко — VRAM или пропускная способность на токен? #model #GLM-5.2 #HuggingFace #FP8 #GGUF #LLM

GLM-5.2 — это новая версия большой языковой модели от zai-org на HuggingFace, и в релизе сразу есть несколько форматов весов для разных сценариев развёртывания.

Отдельно отмечаются два варианта: GLM-5.2-GGUF и GLM-5.2-FP8. Первый обычно упрощает запуск модели локально и в CPU-сценариях через совместимые рантаймы, второй — нацелен на снижение расходов на инференс за счёт FP8-квантизации, когда на вашей стороне есть подходящий софт и железо.

Ключевой практический вопрос: модель в каком именно “sweet spot” по качеству/скорости окажется у вас. Без конкретных бенчмарков и цифр по скоростям (только по формату) ожидания лучше держать реалистичными: формат весов не гарантирует, что качество не просядет, а профит по скорости часто зависит от конкретного рантайма.

Если вы выбираете между GGUF и FP8, начните с проверки совместимости вашего пайплайна и ответа на один вопрос: где у вас бутылочное горлышко — VRAM или пропускная способность на токен?

#model #GLM-5.2 #HuggingFace #FP8 #GGUF #LLM

🔗