Когда разговор с чат-ботом затягивается, что-то идёт не так. Модель начинает отвечать мимо вопроса, придумывает детали, повторяет ошибки. Это не ощущение — это задокументированный факт, который подтвердили исследователи Microsoft Research и Salesforce. Масштаб исследования впечатляет: учёные разобрали больше 200 000 диалогов с ведущими языковыми моделями — GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Охват достаточно широкий, чтобы называть выводы системными, а не случайными. Картина вышла неоднозначная. На одиночных запросах модели показывают до 90 % точных ответов — результат, которым не стыдно гордиться. Но стоит перейти к многоходовому диалогу с живым обменом репликами, как точность проседает примерно до 65 %. Почти треть ответов уходит в погрешность — и это у флагманских систем. Механизм сбоя довольно прозрачный. Модели склонны опираться на собственный первоначальный ответ как на точку отсчёта для всех последующих реплик. Даже если этот первый отве
Чат-боты тупеют и теряют точность в длинных диалогах — исследование Microsoft
23 февраля23 фев
9
3 мин