426 подписчиков

Qwen3.5-122B-A10B-PRISM-LITE-GGUF

ВчераВчера

~1 мин

Локальная мультимодалка в GGUF от ex0bit с PRISM обработкой для снижения over-refusal Вместо обычного квантования автор использует PRISM Dynamic, схему где разные блоки модели квантуются по-разному в зависимости от их чувствительности Итог 57.7 GB за основной GGUF, при этом attention-тензоры сохранены в Q8_0, а нормы и routing weights в F32 По характеристикам 122B Hybrid MoE, 10B active per token, 262K контекст, гибридный attention и нативная мультимодальность. В репозитории отдельно лежит mmproj, так что модель можно и для txt и для img/vid Запускать можно через llama.cpp, KoboldCpp и Ollama. По железу для GPU-only режима заявлено около 60 GB VRAM, хотя возможен и offload на CPU Наш подписчик запустился через lm studio с отключенным mmap() на 64gb ОЗУ и 12 VRAM Я искал модельку что бы на случай чебурнета. Оставлю это. Балакает на русском сдобно и живо Hugging Face

Локальная мультимодалка в GGUF от ex0bit с PRISM обработкой для снижения over-refusal

Вместо обычного квантования автор использует PRISM Dynamic, схему где разные блоки модели квантуются по-разному в зависимости от их чувствительности

Итог 57.7 GB за основной GGUF, при этом attention-тензоры сохранены в Q8_0, а нормы и routing weights в F32

По характеристикам 122B Hybrid MoE, 10B active per token, 262K контекст, гибридный attention и нативная мультимодальность. В репозитории отдельно лежит mmproj, так что модель можно и для txt и для img/vid

Запускать можно через llama.cpp, KoboldCpp и Ollama. По железу для GPU-only режима заявлено около 60 GB VRAM, хотя возможен и offload на CPU

Наш подписчик запустился через lm studio с отключенным mmap() на 64gb ОЗУ и 12 VRAM

Я искал модельку что бы на случай чебурнета. Оставлю это. Балакает на русском сдобно и живо

Hugging Face

Электроника

81,9 тыс интересуются