Модель для AI-агентов Trinity-Large-Thinking (398B MoE) теперь выложили в квантованном формате GGUF, чтобы её можно было запустить локально, а не только через облачные API. MoE (активирует часть параметров) — на каждый токен задействуется около 13B параметров; контекстное окно достигает 512k токенов, что полезно для длинных PR/тасков и больших документов. По агентным тестам заявлены сильные результаты: LiveCodeBench 98.2%, при этом в API цена указана как $0.22/$0.85 за 1M токенов (в отчёте — около 20× дешевле Claude Opus 4.6). Главная практическая фишка доступности — IQ1_M (экспериментальная 1-битная квантизация). Для запуска берите веса GGUF в связке с llama.cpp: llama-server -m trinity.gguf --port 8080 Если используете агентные циклы, не обрезайте <think>…</think> из истории: для дальнейших шагов это часть контекста. #model #Trinity-Large-Thinking #GGUF #MoE #tool-calling #reasoning #llama.cpp 🔗 mradermacher/Trinity-Large-Thinking-i1-GGUF
🚀 Trinity-Large-Thinking (398B MoE) доступна в GGUF: можно попробовать локально и тестировать агентные задачи
1 июня1 июн
~1 мин