Добавить в корзинуПозвонить
Найти в Дзене
Человек 2.0

Gemma 4 проверили на реальные задачи Hermes

Вышла Gemma 4. Я попросил Hermes прогнать её через наши рабочие воркфлоу. Без абстрактных бенчмарков со чпагетти-графиками: три модели, один набор заданий.
Модели:
┈ локальная Gemma 4 от Google

Вышла Gemma 4. Я попросил Hermes прогнать её через наши рабочие воркфлоу. Без абстрактных бенчмарков со чпагетти-графиками: три модели, один набор заданий.

Модели:

┈ локальная Gemma 4 от Google

┈ minimax M3 reasoning high

┈ GPT 5.5 reasoning medium

Задачи приземлённые: разобрать лог Telegram gateway, выбрать нужные skills, вычистить приватные куски из промпта, составить debug-план, написать короткий отчёт в моём стиле, решить, молчать cron watchdog или слать alert.

GPT 5.5: лучший финальный мозг. Там, где production config, риск сломать gateway, приватные куски или ответ человеку, он заметно точнее. Лучше держит контекст, меньше фантазирует, аккуратнее формулирует.

Minimax M3: рабочая лошадь. Нормально тянет маршрутизацию, суммаризацию логов, watchdog, короткие технические выводы. Слабое место: иногда слишком много токенов уходит во внутреннее reasoning, и при маленьком лимите наружу прилетает пустой ответ. Значит, нужны правильные лимиты и её роль это background-модель.

Gemma 4 локально: полезная, но это конечно не главный агент. Для дешёвой классификации, первичного summary и локального профильтра пойдёт. На задачах с контекстом Hermes Agent, privacy или с точным стилем письма быстро начинает плыть. На короткий запрос про Hermes она, например, решила, что речь про доставку и посылки 🤷

Итого по ролям:

┈ Gemma 4 — дешёвый пре-фильтр

┈ Minimax M3 — дешёвый background-мозг

┈ GPT 5.5 — финальный judge и executor

Локальные модели уже можно ставить в работу: резать шум, сортировать задачи, сжимать логи, ловить приватные фрагменты, а наверх отдавать только то, где нужен дорогой мозг. Рабочая архитектура агента: связка моделей под разные уровни риска, а не попытка заставить одну модель делать всё.

А вот ждать от локальных моделей фронтир-поведения пока не приходится.

🧱🔧🧬📈💎🟣🟢

Кейсы и инструменты: @human20

Среда ИИ: human20.app

-2