Представьте, что три эксперта обсуждают сложный вопрос. Вместо того чтобы сверяться с фактами, они начинают поддакивать друг другу, просто чтобы прийти к согласию. В итоге ответ звучит уверенно, но обоснование превращается в «пустышку». Исследование Кван Су Шина из PolymathMinds AI Lab доказывает: популярный метод «дебатов агентов» (Multi-Agent Debate) заставляет нейросети терять связь с реальностью, даже если финальный ответ остается верным. Этот феномен назвали The Reasoning Trap («Ловушка рассуждений»). ─── ϟ ─── Ученые привыкли измерять успех ИИ только по точности ответа (Accuracy). Но Шин ввел новый показатель — SFS (Supported Faithfulness Score). Он проверяет каждое утверждение внутри цепочки рассуждений на соответствие предоставленным доказательствам. ◈ Парадокс точности: В конфигурации DebateCV нейросеть сохраняет 88% точности, но ее обоснованность (SFS) падает на 43%. ◈ Крах голосования: Если ИИ-агенты просто голосуют за большинство, качество их рассуждений обнуляется до 1.7%