62 подписчика

Как LLM молча уничтожают ваши документы при долгом делегировании

24 мая24 мая

1 мин

📉 Microsoft Research опубликовали бенчмарк DELEGATE-52. Исследование посвящено тому, что происходит с рабочими файлами (в т.ч. с кодом), когда вы доверяете LLM длинные цепочки задач. Прогнали 19 моделей (включая Claude 4.6 Opus, Gemini 3.1 Pro и GPT 5.4) на 52 профессиональных доменах. Имитировали до 20 последовательных итераций работы с файлами. По фактам такая беда: 1️⃣ Деградация неизбежна Даже frontier-модели теряют в среднем 25% содержимого документа после 20 итераций. Средний показатель потерь по всем протестированным моделям — 50%. 2️⃣ Python — аномалия Из 52 доменов Python оказался единственным, где абсолютное большинство моделей (17 из 19) признаны «готовыми к делегированию» (сохраняют ≥98% контекста). Но шаг в сторону — и всё сыпется. Модели катастрофически ломают Docker, Makefile, JSON, DB Schema и инфраструктурные конфигурации. 3️⃣ Агенты с тулзами делают только хуже Логика подсказывает: дай модели инструменты read_file, write_file и run_python, и она всё сделает акк

Как LLM молча уничтожают ваши документы при долгом делегировании 📉

Microsoft Research опубликовали бенчмарк DELEGATE-52. Исследование посвящено тому, что происходит с рабочими файлами (в т.ч. с кодом), когда вы доверяете LLM длинные цепочки задач.

Прогнали 19 моделей (включая Claude 4.6 Opus, Gemini 3.1 Pro и GPT 5.4) на 52 профессиональных доменах. Имитировали до 20 последовательных итераций работы с файлами.

По фактам такая беда:

1️⃣ Деградация неизбежна

Даже frontier-модели теряют в среднем 25% содержимого документа после 20 итераций. Средний показатель потерь по всем протестированным моделям — 50%.

2️⃣ Python — аномалия

Из 52 доменов Python оказался единственным, где абсолютное большинство моделей (17 из 19) признаны «готовыми к делегированию» (сохраняют ≥98% контекста).

Но шаг в сторону — и всё сыпется. Модели катастрофически ломают Docker, Makefile, JSON, DB Schema и инфраструктурные конфигурации.

3️⃣ Агенты с тулзами делают только хуже

Логика подсказывает: дай модели инструменты read_file, write_file и run_python, и она всё сделает аккуратно точечными правками. Эксперимент показал обратное: использование агентной обвязки увеличивает деградацию документов ещё на 6%. Причина — рост потребляемых инпут-токенов (в 2-5 раз) и падение производительности на длинном контексте.

4️⃣ Ошибки не накапливаются, они убивают сразу

LLM не деградируют по чуть-чуть в каждой итерации. Они могут идеально отработать несколько шагов, а потом словить критический сбой и потерять 10-30% данных за один проход. На такие сбои приходится около 80% всей деградации. Более умные модели просто оттягивают этот момент.

5️⃣ Разница в глупости

Слабые модели (вроде GPT 4o, GPT 5 Nano) тупо удаляют куски кода и текста. Сильные (Claude 4.6, GPT 5.4) занимаются корраптом: галлюцинируют и незаметно искажают логику, сохраняя общую структуру и объем файла. Выловить это на ревью на порядок сложнее.

6️⃣ Размер контекста и мусорные файлы имеют накопительный эффект

Увеличение файла с 1k до 10k токенов бьет по метрикам нелинейно. На дистанции в 20 итераций эффект деградации от объема возрастает примерно в 5 раз. То же самое с distractor-файлами (нерелевантными документами, которые часто залетают в RAG) — на длинной дистанции они гарантированно сбивают фокус и ведут к потерям.

В общем, с большими кодовыми базами до сих пор работать больно 🫠