Найти в Дзене
Innovate Today

GitTaskBench: как тестируют ИИ-программистов и кодовые агенты

Открытая площадка позволяет оценивать ИИ-агентов по полноценным циклам разработки и учитывать экономическую эффективность Китайские исследователи представили GitTaskBench — набор данных и тестов, предназначенных для оценки работы ИИ-агентов, занимающихся программированием. В отличие от традиционных бенчмарков, которые проверяют отдельные функции (например, генерацию кода или поиск ошибок), GitTaskBench охватывает полный жизненный цикл разработки: создание репозитория, написание функций, тестирование, исправление багов и выпуск версии. В материалах отмечается, что бенчмарк включает четыре домена проектов (алгоритмы, игры, низкоуровневые программы и команды оболочки) и использует более 110 реальных задач. Особым нововведением GitTaskBench является метрика эффективности затрат (Cost-Effective Analysis), учитывающая время выполнения задач, использование ресурсов и количество успешных итераций. Разработчики полагают, что именно экономический показатель станет решающим фактором при выборе ИИ

Открытая площадка позволяет оценивать ИИ-агентов по полноценным циклам разработки и учитывать экономическую эффективность

Китайские исследователи представили GitTaskBench — набор данных и тестов, предназначенных для оценки работы ИИ-агентов, занимающихся программированием. В отличие от традиционных бенчмарков, которые проверяют отдельные функции (например, генерацию кода или поиск ошибок), GitTaskBench охватывает полный жизненный цикл разработки: создание репозитория, написание функций, тестирование, исправление багов и выпуск версии. В материалах отмечается, что бенчмарк включает четыре домена проектов (алгоритмы, игры, низкоуровневые программы и команды оболочки) и использует более 110 реальных задач.

Особым нововведением GitTaskBench является метрика эффективности затрат (Cost-Effective Analysis), учитывающая время выполнения задач, использование ресурсов и количество успешных итераций. Разработчики полагают, что именно экономический показатель станет решающим фактором при выборе ИИ-агента для коммерческих проектов: компании заинтересованы не только в быстрой генерации кода, но и в минимизации расходов на ресурсы. Бенчмарк открыт для сообщества, что позволяет исследователям и компаниям тестировать собственных агентов и сравнивать их с конкурентами.

С появлением GitTaskBench усиливается внимание к разработке «агентов разработчиков» — автономных систем, способных выполнять всё больше этапов программирования. Такие агенты могут писать код, тестировать его, генерировать документацию и даже управлять релизами. Появление стандартизированного инструмента для оценки ускорит прогресс, установив объективные показатели. Авторы GitTaskBench планируют добавлять новые задачи и домены, а также разработать визуальные панели для мониторинга работы агентов в режиме реального времени. Это станет шагом к созданию промышленных приложений, где ИИ сможет работать бок о бок с людьми, обеспечивая более высокую производительность.