📰 SkillOpt от Microsoft: ваш ИИ-агент научился прокачивать скиллы, не трогая веса — и это open source

СегодняСегодня

2 мин

Представьте, что ваш ИИ-агент — это не просто болванка, а настоящий ученик, который может улучшать свои навыки без перепрошивки мозга. Звучит как научная фантастика? А вот и нет. Microsoft выкатила новый open-source фреймворк — skillopt (да-да, именно так, с маленькой буквы в коде), который превращает текстовые инструкции для агентов в тренируемые объекты. Забудьте про бесконечные правки .md-файлов наугад — теперь оптимизация происходит как в глубоком обучении: с контролем шага, валидацией и моментам. Поехали разбираться, как это работает и почему это меняет правила игры. Навыки агентов стали важной частью реальных AI-приложений. По сути, это набор инструкций, сохранённых в текстовых markdown-файлах (.md), которые помогают модели адаптироваться к конкретным корпоративным задачам и сложным рабочим процессам. Но вот беда: оптимизировать эти навыки — процесс медленный и багоопасный. Их нельзя обучать как параметры самой модели — вместо этого пользователи вынуждены вручную править инструк

Навыки агентов стали важной частью реальных AI-приложений. По сути, это набор инструкций, сохранённых в текстовых markdown-файлах (.md), которые помогают модели адаптироваться к конкретным корпоративным задачам и сложным рабочим процессам. Но вот беда: оптимизировать эти навыки — процесс медленный и багоопасный. Их нельзя обучать как параметры самой модели — вместо этого пользователи вынуждены вручную править инструкции в каждом файле, играя в «угадайку»: что изменить, чтобы агент работал лучше и меньше ошибался?

SkillOpt — новый open-source фреймворк (лицензия MIT) от Microsoft — делает шаг вперёд. Он представляет оптимизатор для навыков агентов, превращая .md-документ навыка в обучаемый объект, который эволюционирует на основе обратной связи от производительности. Используя оптимизацию в стиле глубокого обучения, AI может систематически исследовать модификации документа и находить лучшее сочетание инструкций. И самое важное — всё это происходит без изменения весов базовой модели.

На различных индустриальных бенчмарках SkillOpt обходит существующие базовые решения, значительно повышая точность для таких моделей, как GPT-5.5 и Qwen. Результат — компактные и переносимые артефакты навыков, позволяющие AI-агентам легко адаптироваться к новым доменам.

Проблема оптимизации навыков агентов

Навыки агентов упаковывают процедурные знания в спецификации на естественном языке: эвристики предметной области, политики использования инструментов, ограничения вывода и известные сценарии отказов. Эти навыки служат внешним интерфейсом для адаптации агентов к сложным корпоративным рабочим процессам. На практике навыки хранятся как текстовые документы и вставляются в контекст агента перед выполнением.

Одно из ключевых преимуществ навыков — они настраивают поведение модели без изменения её весов. Однако сам документ навыка нужно подкручивать и оптимизировать, чтобы выжать максимум из агента.

Глубокое обучение опирается на строгий математический контроль для стабильности, а человеческий промпт-инжиниринг часто действует методом тыка. Когда пытаешься автоматически обновлять документ навыка на основе обратной связи, отсутствие математической дисциплины делает текст крайне нестабильным.

Ифань Ян, старший научный сотрудник Microsoft Research Asia, объяснил VentureBeat, что проблема не в том, чтобы внести изменения, а в том, чтобы гарантировать, что эти изменения математически обоснованы. «Критический момент не в том, может ли команда изменить навык, а в том, что они не могут гарантировать, что изменение — это улучшение, — сказал Ян....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут