Опубликован ProgramBench — бенчмарк от авторов SWE-bench для оценки кодинг-агентов. Задача агента — воспроизвести код существующей программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. В первом релизе включено 200 программ из открытых репозиториев, от малоизвестных (менее 500 звезд на GitHub) до популярных, таких как SQLite. Проект медианного размера содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был опубликован 8 лет назад. Сборка бенчмарка включает: • Запуск инструкций по сборке для получения точной версии программы • Генерацию сценариев использования на основе кода и документации • Автоматическую разметку и фильтрацию тестов Основная метрика — доля проектов, которые агент воспроизводит с прохождением 100% тестов. Дополнительная — с порогом в 95%. Агенту даётся 6 часов, 1000 шагов и неограниченное число запросов к скомпилированной программе.
Вышел новый бенчмарк для кодинг-агентов ProgramBench
ВчераВчера
10
~1 мин