📉 Microsoft Research опубликовали бенчмарк DELEGATE-52. Исследование посвящено тому, что происходит с рабочими файлами (в т.ч. с кодом), когда вы доверяете LLM длинные цепочки задач. Прогнали 19 моделей (включая Claude 4.6 Opus, Gemini 3.1 Pro и GPT 5.4) на 52 профессиональных доменах. Имитировали до 20 последовательных итераций работы с файлами. По фактам такая беда: 1️⃣ Деградация неизбежна Даже frontier-модели теряют в среднем 25% содержимого документа после 20 итераций. Средний показатель потерь по всем протестированным моделям — 50%. 2️⃣ Python — аномалия Из 52 доменов Python оказался единственным, где абсолютное большинство моделей (17 из 19) признаны «готовыми к делегированию» (сохраняют ≥98% контекста). Но шаг в сторону — и всё сыпется. Модели катастрофически ломают Docker, Makefile, JSON, DB Schema и инфраструктурные конфигурации. 3️⃣ Агенты с тулзами делают только хуже Логика подсказывает: дай модели инструменты read_file, write_file и run_python, и она всё сделает акк