Вышла Gemma 4. Я попросил Hermes прогнать её через наши рабочие воркфлоу. Без абстрактных бенчмарков со чпагетти-графиками: три модели, один набор заданий.
⠀
Модели:
┈ локальная Gemma 4 от Google
┈ minimax M3 reasoning high
┈ GPT 5.5 reasoning medium
⠀
Задачи приземлённые: разобрать лог Telegram gateway, выбрать нужные skills, вычистить приватные куски из промпта, составить debug-план, написать короткий отчёт в моём стиле, решить, молчать cron watchdog или слать alert.
⠀
GPT 5.5: лучший финальный мозг. Там, где production config, риск сломать gateway, приватные куски или ответ человеку, он заметно точнее. Лучше держит контекст, меньше фантазирует, аккуратнее формулирует.
⠀
Minimax M3: рабочая лошадь. Нормально тянет маршрутизацию, суммаризацию логов, watchdog, короткие технические выводы. Слабое место: иногда слишком много токенов уходит во внутреннее reasoning, и при маленьком лимите наружу прилетает пустой ответ. Значит, нужны правильные лимиты и её роль это background-модель.
⠀
Gemma 4 локально: полезная, но это конечно не главный агент. Для дешёвой классификации, первичного summary и локального профильтра пойдёт. На задачах с контекстом Hermes Agent, privacy или с точным стилем письма быстро начинает плыть. На короткий запрос про Hermes она, например, решила, что речь про доставку и посылки 🤷
⠀
Итого по ролям:
┈ Gemma 4 — дешёвый пре-фильтр
┈ Minimax M3 — дешёвый background-мозг
┈ GPT 5.5 — финальный judge и executor
⠀
Локальные модели уже можно ставить в работу: резать шум, сортировать задачи, сжимать логи, ловить приватные фрагменты, а наверх отдавать только то, где нужен дорогой мозг. Рабочая архитектура агента: связка моделей под разные уровни риска, а не попытка заставить одну модель делать всё.
А вот ждать от локальных моделей фронтир-поведения пока не приходится.
🧱🔧🧬📈💎🟣🟢
Кейсы и инструменты: @human20
Среда ИИ: human20.app