Чем дольше разговор с ИИ, тем больше ошибок
Новое исследование показало важный для рынка ИИ факт, чем длиннее диалог с крупной языковой моделью, тем сильнее проседает её точность. В среднем производительность LLM падает на 39% по сравнению с выполнением одной чёткой инструкции. Даже у передовых систем ситуация не идеальна. В работе отмечается, что у моделей уровня GPT-5 точность при многораундовых взаимодействиях снижается примерно на 33%. Главная проблема, ранние ошибочные предположения. Если модель в начале диалога «поехала не туда», дальше ей сложно корректно переобучиться по ходу разговора. Исследователи подчёркивают: дело не только в настройках...