1830 подписчиков

ИИ-агенты не могут сами выучить новые трюки — это под силу только людям

19 февраля19 фев

5 мин

Самостоятельно сгенерированные навыки мало что дают ИИ-агентам, показало исследование, но кураторские навыки, созданные человеком, эффективны. — theregister.com Научите ИИ-агента ловить информацию, и он сможет сам себя обеспечивать данными. Попросите ИИ-агента разобраться во всем самостоятельно, и он может усугубить ситуацию. ИИ-агенты — это модели машинного обучения (например, Claude Opus 4.6), имеющие доступ к другому программному обеспечению через интерфейс командной строки (CLI) (например, Claude Code) и работающие в итеративном цикле. Этим агентам можно давать инструкции для выполнения различных задач, некоторые из которых могут не входить в их обучающие данные. При отсутствии соответствующего обучения программным агентам можно предоставить доступ к новым «навыкам» (skills), которые по сути являются дополнительными справочными материалами для придания им специфических для предметной области возможностей. В данном контексте «навыки» относятся к инструкциям, метаданным и другим ресу

Самостоятельно сгенерированные навыки мало что дают ИИ-агентам, показало исследование, но кураторские навыки, созданные человеком, эффективны. — theregister.com

Научите ИИ-агента ловить информацию, и он сможет сам себя обеспечивать данными. Попросите ИИ-агента разобраться во всем самостоятельно, и он может усугубить ситуацию.

ИИ-агенты — это модели машинного обучения (например, Claude Opus 4.6), имеющие доступ к другому программному обеспечению через интерфейс командной строки (CLI) (например, Claude Code) и работающие в итеративном цикле. Этим агентам можно давать инструкции для выполнения различных задач, некоторые из которых могут не входить в их обучающие данные.

При отсутствии соответствующего обучения программным агентам можно предоставить доступ к новым «навыкам» (skills), которые по сути являются дополнительными справочными материалами для придания им специфических для предметной области возможностей. В данном контексте «навыки» относятся к инструкциям, метаданным и другим ресурсам, таким как скрипты и шаблоны, которые агенты загружают для получения процедурных знаний.

Например, ИИ-агенту можно поручить обрабатывать PDF-файлы с помощью навыка, состоящего из текста в формате markdown, кода, библиотек и справочных материалов об API. Хотя агент может иметь некоторое представление о том, как это сделать, из своих обучающих данных, с более конкретными указаниями он должен работать лучше.

Однако, согласно недавнему исследованию SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, просьба к агенту самостоятельно разработать такой навык приведет к разочарованию. Часть «интеллект» в искусственном интеллекте несколько преувеличена.

По крайней мере, так обстоит дело с большими языковыми моделями (LLM) во время инференса – когда обученная модель используется, в отличие от процесса обучения.

Новый бенчмарк

Некоторые формы машинного обучения, такие как глубокое обучение, могут применяться таким образом, что модели нейронных сетей улучшают свою производительность в задачах, специфичных для предметной области, например, в видеоиграх.

Взрывной рост числа ИИ-агентов – Claude Code от Anthropic, Gemini CLI от Google и Codex CLI от OpenAI – привел к быстрой разработке навыков для расширения возможностей агентов. Каталоги навыков стремительно распространяются как сорняки. И учитывая, как агенты OpenClaw обучают друг друга в автоматизированной сетевой системе сообщества Moltbook, кажется, давно пора выяснить, насколько хорошо они с этим справляются.

До сих пор не было общего способа увидеть, оправдывают ли эти навыки свои обещания. Поэтому команда из 40 (!) специалистов по компьютерным наукам, связанных с такими компаниями, как Amazon, BenchFlow, ByteDance, Foxconn и Zennity, а также с различными университетами, включая Университет Карнеги — Меллона, Стэнфорд, Калифорнийский университет в Беркли и Оксфорд, решила разработать тестовый бенчмарк для оценки того, как навыки агентов повышают производительность во время инференса.

Авторы, возглавляемые Сянъи Ли, основателем стартапа BenchFlow, занимающегося измерением производительности агентов, разработали тест под названием SkillsBench и описали свои выводы в упомянутой выше препринте.

Исследователи рассмотрели семь конфигураций агент-модель на 84 задачах и 7 308 траекториях – попытках одного агента решить одну задачу при определенном условии навыков. Были протестированы три условия: отсутствие навыков, кураторские навыки и самостоятельно сгенерированные навыки.

Агенты, использующие кураторские навыки, разработанные людьми, в среднем на 16,2 % чаще выполняли задачи, чем агенты без навыков, хотя и с высокой вариативностью.

Один из примеров, приведенных в исследовании, — задача анализа рисков наводнений. Агенты без навыков не применяли соответствующую статистическую математику, поэтому достигли показателя успешного выполнения всего 2,9 %. С кураторским навыком, который предписывал агенту использовать распределение вероятностей по Пирсону типа III и применять соответствующую стандартную методологию USGS, а также указывал другие детали, такие как вызовы функций scipy и интерпретация параметров, показатель успешного выполнения задач агентом увеличился до 80 %.

При анализе по конкретным областям знаний, кураторство навыков в области здравоохранения (+51,9 процентных пункта) и производства (+41,9 процентных пункта) больше всего помогло ИИ-агентам, в то время как кураторство навыков, связанных с математикой (+6,0 процентных пункта) и программной инженерией (+4,5 процентных пункта), дало меньший прирост. Авторы объясняют это тем, что области, требующие специализированных знаний, как правило, недостаточно представлены в обучающих данных. Поэтому имеет смысл, чтобы люди дополняли агентов, работающих над задачами в этих областях.

И при этом меньше — значит лучше: навыки с небольшим количеством (2-3) модулей работали лучше, чем массивные «сливы» данных.

Это применимо и к масштабу модели – кураторские навыки помогают меньшим моделям превосходить свой весовой класс с точки зрения выполнения задач. Модель Claude Haiku 4.5 от Anthropic *с* навыками (27,7 %) превзошла Haiku 4.5 без навыков (11 %) и также Claude Opus 4.5 без навыков (22 %).

Когда пришло время заставить агентов самостоятельно осваивать навыки, авторы исследования поручили им:

анализировать требования к задаче, знания предметной области и необходимые API;
написать 1-5 модульных документов навыков для решения задачи;
сохранить каждый навык в виде файла markdown; и
затем решить задачу, используя сгенерированный справочный материал.

Агенты, которые попытались это сделать, показали худшие результаты, чем если бы они вообще не пытались.

«Самостоятельно сгенерированные навыки дают незначительную или отрицательную выгоду (в среднем –1,3 процентных пункта), демонстрируя, что эффективные навыки требуют кураторской экспертизы предметной области со стороны человека», — заявляют авторы.

По крайней мере, пока что ИИ-революция не будет полностью автоматизирована – машинам по-прежнему нужны человеческие учителя, чтобы направить их на правильный путь. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Thomas Claburn

Оригинал статьи

Гаджеты и электроника

5,73 млн интересуются