Открытая площадка позволяет оценивать ИИ-агентов по полноценным циклам разработки и учитывать экономическую эффективность Китайские исследователи представили GitTaskBench — набор данных и тестов, предназначенных для оценки работы ИИ-агентов, занимающихся программированием. В отличие от традиционных бенчмарков, которые проверяют отдельные функции (например, генерацию кода или поиск ошибок), GitTaskBench охватывает полный жизненный цикл разработки: создание репозитория, написание функций, тестирование, исправление багов и выпуск версии. В материалах отмечается, что бенчмарк включает четыре домена проектов (алгоритмы, игры, низкоуровневые программы и команды оболочки) и использует более 110 реальных задач. Особым нововведением GitTaskBench является метрика эффективности затрат (Cost-Effective Analysis), учитывающая время выполнения задач, использование ресурсов и количество успешных итераций. Разработчики полагают, что именно экономический показатель станет решающим фактором при выборе ИИ
GitTaskBench: как тестируют ИИ-программистов и кодовые агенты
3 сентября 20253 сен 2025
1 мин