Найти в Дзене
Блохи в свитере

ИИ отлично пишет код, но почти не умеет его поддерживать

К такому выводу пришли исследователи Alibaba после тестирования 18 ИИ-агентов для программирования. Эксперимент был максимально приближен к реальной разработке. Моделям дали 100 настоящих кодовых баз, каждая из которых отражала примерно 233 дня разработки. Задача заключалась не просто в написании кода, а в его поддержке и развитии на протяжении восьми месяцев. Для этого Alibaba разработала новый бенчмарк SWE-CI, который проверяет не разовое исправление багов, а способность системы работать с эволюцией проекта. Каждая задача включает 71 последовательный коммит, отражающий реальное развитие кода. Результаты оказались довольно жесткими. Около 75% моделей в процессе работы ломают ранее функционировавший код. Только Claude Opus 4.5 и 4.6 показали показатель zero-regression rate выше 50%, тогда как остальные системы накапливают технический долг на каждой новой итерации.

ИИ отлично пишет код, но почти не умеет его поддерживать. К такому выводу пришли исследователи Alibaba после тестирования 18 ИИ-агентов для программирования.

Эксперимент был максимально приближен к реальной разработке. Моделям дали 100 настоящих кодовых баз, каждая из которых отражала примерно 233 дня разработки. Задача заключалась не просто в написании кода, а в его поддержке и развитии на протяжении восьми месяцев.

Для этого Alibaba разработала новый бенчмарк SWE-CI, который проверяет не разовое исправление багов, а способность системы работать с эволюцией проекта. Каждая задача включает 71 последовательный коммит, отражающий реальное развитие кода.

Результаты оказались довольно жесткими. Около 75% моделей в процессе работы ломают ранее функционировавший код. Только Claude Opus 4.5 и 4.6 показали показатель zero-regression rate выше 50%, тогда как остальные системы накапливают технический долг на каждой новой итерации.