Эксперимент был максимально реалистичным: 100 настоящих кодовых баз, каждая — 233 дня разработки. Задача — не просто написать код, а поддерживать его в течение 8 месяцев. И тут всё развалилось. Написать код, который один раз проходит тесты — легко. Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не умеет. Для этого Alibaba сделала новый бенчмарк — SWE-CI. Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта. Каждая задача — это 71 последовательный коммит реального развития кода. Результаты - 75% моделей ломают ранее работающий код во время поддержки - только Claude Opus 4.5 и 4.6 держатся выше 50% zero-regression rate - остальные модели накапливают технический долг на каждой итерации Вывод Почти все модели умеют писать код. Почти ни одна не умеет его поддерживать. И чем они лучше живых программистов? #неросети · @larchanka
Тут Alibaba протестировала 18 ИИ-агентов для программирования — и результаты оказались… болезненными
10 марта10 мар
15
~1 мин