🎯 Метод SkillOpt трактует текстовую инструкцию как «обучаемое состояние» и оптимизирует её по принципам градиентного спуска. Одна модель-оптимизатор анализирует ошибки замороженной целевой модели и вносит точечные правки в Markdown-файл — но только если они проходят проверку на отдельном наборе данных. Результат: +20 баллов GPT-5.5 и значительный прирост у компактного Qwen3.5-4B на шести бенчмарках. В агентном режиме (Codex, Claude Code) разница особенно заметна. Инференс требует лишь файл на 300–2000 токенов — никаких дополнительных затрат. 🚀 ВК
Microsoft и китайские учёные нашли дешёвый способ прокачать LLM через… Markdown
13 июня13 июн
~1 мин