Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код. В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен. 🟡 Центральный инструмент - evals (автотесты качества). Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него. Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост. Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8. Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов. На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документ