Новое исследование показало важный для рынка ИИ факт, чем длиннее диалог с крупной языковой моделью, тем сильнее проседает её точность. В среднем производительность LLM падает на 39% по сравнению с выполнением одной чёткой инструкции. Даже у передовых систем ситуация не идеальна. В работе отмечается, что у моделей уровня GPT-5 точность при многораундовых взаимодействиях снижается примерно на 33%. Главная проблема, ранние ошибочные предположения. Если модель в начале диалога «поехала не туда», дальше ей сложно корректно переобучиться по ходу разговора. Исследователи подчёркивают: дело не только в настройках. Такие технические приёмы, как снижение температуры генерации, не решают проблему системно. Модели по-прежнему могут теряться в длинных цепочках сообщений. Интересно, что по отдельным задачам (например, Python) деградация меньше, но общий тренд сохраняется. Это означает, что надёжность длинных агентных сценариев всё ещё ограничена. При сложных задачах лучше периодически перезапус