1 подписчик

🚀 LFM2.5-350M после fine-tuning делает tool calling точнее: 61% → 98% и годится для локальных агентов на CPU

14 мая14 мая

1 мин

Модель mosama LFM2.5-350M-Tool-Calling-Merged-v3 дообучили под вызов функций, чтобы ассистент не только писал текст, но и запускал нужные действия. Контрастный результат из тестов: shell-команды без дообучения — 61.4% корректных вызовов, после fine-tuning — 98.0%. Для сравнения, у FunctionGemma на сопоставимых задачах эквивалентность лишь 10–39%. По размеру это 350M параметров и контекст 32k; заявлено, что KV-кеш занимает на 90% меньше памяти, что делает edge-деплой реалистичным. В описании также есть прогон на AMD CPU: 239 tok/s при потреблении <1GB RAM. Как запускать: модель лежит на HuggingFace и совместима с Transformers/возможным serving через vLLM или SGLang; для локального агента формат tool call идёт через служебные токены, а инструменты передаются в системном промпте как JSON-массив. У Liquid AI при этом указано ограничение: модель не рекомендована для knowledge-intensive задач. Запрос по железу: цель — CPU/NPU и встраиваемые сценарии; если нужны глубинные знания или сложн

Модель mosama LFM2.5-350M-Tool-Calling-Merged-v3 дообучили под вызов функций, чтобы ассистент не только писал текст, но и запускал нужные действия.

Контрастный результат из тестов: shell-команды без дообучения — 61.4% корректных вызовов, после fine-tuning — 98.0%. Для сравнения, у FunctionGemma на сопоставимых задачах эквивалентность лишь 10–39%.

По размеру это 350M параметров и контекст 32k; заявлено, что KV-кеш занимает на 90% меньше памяти, что делает edge-деплой реалистичным. В описании также есть прогон на AMD CPU: 239 tok/s при потреблении <1GB RAM.

Как запускать: модель лежит на HuggingFace и совместима с Transformers/возможным serving через vLLM или SGLang; для локального агента формат tool call идёт через служебные токены, а инструменты передаются в системном промпте как JSON-массив. У Liquid AI при этом указано ограничение: модель не рекомендована для knowledge-intensive задач.

Запрос по железу: цель — CPU/NPU и встраиваемые сценарии; если нужны глубинные знания или сложное планирование без инструментов, лучше смотреть крупнее.

#model #LFM2.5 #toolcalling #MoE #edge #CPU #HF

🔗 mosama/LFM2.5-350M-Tool-Calling-Merged-v3