Найти в Дзене
Машинное обучение

⚡️ Anthropic расширила возможности skill-creator

Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код. В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен. 🟡 Центральный инструмент - evals (автотесты качества). Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него. Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост. Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8. Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов. На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документ

⚡️ Anthropic расширила возможности skill-creator.

Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код.

В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен.

🟡 Центральный инструмент - evals (автотесты качества).

Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него.

Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост.

Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8.

Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов.

На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документов успешность выросла с 40 до 100% (при том же времени выполнения).

🟡Evals полезны и в долгосрочной перспективе.

Если базовая модель начинает проходить тесты без загруженного навыка - это сигнал о том, что навык уже есть в ее поведении и skill можно отключить. Результаты тестов хранятся локально и интегрируются в CI-системы.

🟡Обновление улучшило триггерную активацию.

Claude решает, когда подключить навык, исключительно по короткому текстовому описанию в системном промпте.

Skill-creator теперь анализирует эти описания против тестовых промптов и предлагает правки, снижающие и ложные срабатывания и пропуски.

По результатам внутреннего прогона триггеринг стал лучше на 5 из 6 публичных навыков.

Все обновления уже доступны в вебе и Cowork. Для Claude Code обновили плагин или вот он же - в репозитории, если ставить руками.

@machinelearning

#news #ai #ml