ИИ отлично пишет код, но почти не умеет его поддерживать
К такому выводу пришли исследователи Alibaba после тестирования 18 ИИ-агентов для программирования. Эксперимент был максимально приближен к реальной разработке. Моделям дали 100 настоящих кодовых баз, каждая из которых отражала примерно 233 дня разработки. Задача заключалась не просто в написании кода, а в его поддержке и развитии на протяжении восьми месяцев. Для этого Alibaba разработала новый бенчмарк SWE-CI, который проверяет не разовое исправление багов, а способность системы работать с эволюцией проекта...