2488 подписчиков

Тут Alibaba протестировала 18 ИИ-агентов для программирования — и результаты оказались… болезненными

10 марта10 мар

~1 мин

Эксперимент был максимально реалистичным: 100 настоящих кодовых баз, каждая — 233 дня разработки. Задача — не просто написать код, а поддерживать его в течение 8 месяцев. И тут всё развалилось. Написать код, который один раз проходит тесты — легко. Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не умеет. Для этого Alibaba сделала новый бенчмарк — SWE-CI. Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта. Каждая задача — это 71 последовательный коммит реального развития кода. Результаты - 75% моделей ломают ранее работающий код во время поддержки - только Claude Opus 4.5 и 4.6 держатся выше 50% zero-regression rate - остальные модели накапливают технический долг на каждой итерации Вывод Почти все модели умеют писать код. Почти ни одна не умеет его поддерживать. И чем они лучше живых программистов? #неросети · @larchanka

Тут Alibaba протестировала 18 ИИ-агентов для программирования — и результаты оказались… болезненными.

Эксперимент был максимально реалистичным:

100 настоящих кодовых баз, каждая — 233 дня разработки.

Задача — не просто написать код, а поддерживать его в течение 8 месяцев.

И тут всё развалилось.

Написать код, который один раз проходит тесты — легко.

Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не умеет.

Для этого Alibaba сделала новый бенчмарк — SWE-CI.

Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта.

Каждая задача — это 71 последовательный коммит реального развития кода.

Результаты

- 75% моделей ломают ранее работающий код во время поддержки

- только Claude Opus 4.5 и 4.6 держатся выше 50% zero-regression rate

- остальные модели накапливают технический долг на каждой итерации

Вывод

Почти все модели умеют писать код.

Почти ни одна не умеет его поддерживать.

И чем они лучше живых программистов?

#неросети · @larchanka

Гаджеты и электроника

5,73 млн интересуются