Qwopus3.6-35B-A3B-v1-GGUF — экспериментальная community-модель для локального reasoning: способности рассуждений Claude 4.6 Opus переложили в архитектуру Qwen3.6-35B-A3B и упаковали в GGUF. Суть — в контрасте «недоступная мощность → домашний запуск». MoE-модель содержит 35B параметров, но активирует около 3B на каждый токен, поэтому с квантовкой Q6_K_XL она помещается примерно в ~22 ГБ VRAM и стартует на одной RTX 3090. Бенчмарки с контекстом: базовая Qwen3.6-35B-A3B набирает 73.4 на SWE-bench Verified (решение реальных задач из open-source), что выше DeepSeek R1 (49.2) — разрыв >24 пунктов в пользу Qwen. Как запустить: возьмите GGUF с Hugging Face и запускайте через llama.cpp. Команда зависит от вашей сборки, но типовой сценарий — загрузить модель и дать промпт (например, через ./main -m <path>.gguf -p "..."). Для vision нужен дополнительный mmproj.gguf рядом с основной моделью. Ограничения: это эксперимент. Автор предупреждает про рискованную настройку дообучения — LoRA на ~9% па
🛠 Qwopus3.6-35B в GGUF дистиллировали из Claude 4.6 Opus: локальный reasoning запускается на одной RTX 3090
ВчераВчера
1 мин