3823 подписчика

Чат-боты тупеют и теряют точность в длинных диалогах — исследование Microsoft

23 февраля23 фев

3 мин

Когда разговор с чат-ботом затягивается, что-то идёт не так. Модель начинает отвечать мимо вопроса, придумывает детали, повторяет ошибки. Это не ощущение — это задокументированный факт, который подтвердили исследователи Microsoft Research и Salesforce. Масштаб исследования впечатляет: учёные разобрали больше 200 000 диалогов с ведущими языковыми моделями — GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Охват достаточно широкий, чтобы называть выводы системными, а не случайными. Картина вышла неоднозначная. На одиночных запросах модели показывают до 90 % точных ответов — результат, которым не стыдно гордиться. Но стоит перейти к многоходовому диалогу с живым обменом репликами, как точность проседает примерно до 65 %. Почти треть ответов уходит в погрешность — и это у флагманских систем. Механизм сбоя довольно прозрачный. Модели склонны опираться на собственный первоначальный ответ как на точку отсчёта для всех последующих реплик. Даже если этот первый отве

Оглавление

Что показал анализ 200 000 диалогов
Раздувание ответов и галлюцинации
Даже «думающие» модели не справились

Что показал анализ 200 000 диалогов

Масштаб исследования впечатляет: учёные разобрали больше 200 000 диалогов с ведущими языковыми моделями — GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Охват достаточно широкий, чтобы называть выводы системными, а не случайными.

Картина вышла неоднозначная. На одиночных запросах модели показывают до 90 % точных ответов — результат, которым не стыдно гордиться. Но стоит перейти к многоходовому диалогу с живым обменом репликами, как точность проседает примерно до 65 %. Почти треть ответов уходит в погрешность — и это у флагманских систем.

Механизм сбоя довольно прозрачный. Модели склонны опираться на собственный первоначальный ответ как на точку отсчёта для всех последующих реплик. Даже если этот первый ответ был ошибочным. Получается своеобразная цепочка: ошибка тянет за собой следующую, контекст накапливается — и модель всё глубже уходит в неверную сторону.

Раздувание ответов и галлюцинации

Исследователи зафиксировали и другой эффект — раздувание ответов. В многоходовых диалогах объём реакций моделей вырастает на 20–300 %. Казалось бы, больше текста — больше пользы? Нет. Длинные ответы оказались питательной средой для предположений и галлюцинаций, которые затем закреплялись в контексте разговора и начинали жить своей жизнью.

Это несколько напоминает эффект испорченного телефона: каждый следующий шаг опирается на предыдущий, ошибки множатся, и уже через несколько реплик модель уверенно рассуждает о вещах, которых попросту не существует.

Даже «думающие» модели не справились

Отдельного внимания заслуживает то, что модели с расширенными механизмами рассуждений — o3 от OpenAI и DeepSeek R1 — тоже не смогли выбраться из этой ловушки. Их дополнительные «токены мышления», призванные улучшить качество рассуждений, не дали ощутимого преимущества в условиях длинного диалога.

Общая надёжность языковых моделей в ходе исследования снизилась на 112 % — показатель, который трудно проигнорировать. Одной из причин называют преждевременную генерацию: модели пытаются сформировать ответ, ещё не дочитав запрос до конца. Торопятся, грубо говоря.

Риски для пользователей и доверие к ИИ

Всё это поднимает вопрос, который давно висит в воздухе. Мы наблюдаем активное замещение традиционных поисковиков инструментами на основе ИИ — взять хотя бы «ИИ-обзоры Google». Доверие к таким сервисам растёт, привычка формируется быстро. Но если модель систематически теряет точность в длинных диалогах, а пользователь об этом не подозревает — это уже не техническая деталь, а вполне реальный риск получить недостоверную информацию там, где рассчитывал на точный ответ.

Безусловно, ИИ-инструменты сегодня полезны и востребованы. Но полагаться на них безоглядно, особенно в серьёзных вопросах, пока преждевременно.

Кто виноват — модели или пользователи?

Любопытная деталь: некоторое время назад Microsoft публично заявила, что проблема отчасти в самих пользователях — дескать, те составляют запросы непродуманно, без должного понимания того, как работают языковые модели. Недостаточный уровень так называемого промпт-инжиниринга.

Это, конечно, отчасти справедливо — качество вопроса действительно влияет на качество ответа. Но списывать системные сбои только на «неправильных пользователей» было бы странно. Если модель стабильно теряет точность именно в многоходовых диалогах — то есть именно в том формате, который большинство людей считает естественным общением, — это уже архитектурная задача, а не вопрос грамотности собеседника.

Исследование, в общем-то, не ставит крест на языковых моделях. Оно честно фиксирует их нынешние ограничения. А это, пожалуй, и есть первый шаг к тому, чтобы их преодолеть.

Подпишись, поставь лайк и поделись с друзьями!

Жмякни на колокольчик

Microsoft

32,8 тыс интересуются