Добавить в корзинуПозвонить
Найти в Дзене
Роман Лебедев

ЛОВУШКА ДЛЯ РАЗУМА: ПОЧЕМУ СПОРЫ НЕЙРОСЕТЕЙ УБИВАЮТ ЛОГИКУ⁠⁠

Представьте, что три эксперта обсуждают сложный вопрос. Вместо того чтобы сверяться с фактами, они начинают поддакивать друг другу, просто чтобы прийти к согласию. В итоге ответ звучит уверенно, но обоснование превращается в «пустышку». Исследование Кван Су Шина из PolymathMinds AI Lab доказывает: популярный метод «дебатов агентов» (Multi-Agent Debate) заставляет нейросети терять связь с реальностью, даже если финальный ответ остается верным. Этот феномен назвали The Reasoning Trap («Ловушка рассуждений»). ─── ϟ ─── Ученые привыкли измерять успех ИИ только по точности ответа (Accuracy). Но Шин ввел новый показатель — SFS (Supported Faithfulness Score). Он проверяет каждое утверждение внутри цепочки рассуждений на соответствие предоставленным доказательствам. ◈ Парадокс точности: В конфигурации DebateCV нейросеть сохраняет 88% точности, но ее обоснованность (SFS) падает на 43%. ◈ Крах голосования: Если ИИ-агенты просто голосуют за большинство, качество их рассуждений обнуляется до 1.7%
Оглавление

Представьте, что три эксперта обсуждают сложный вопрос. Вместо того чтобы сверяться с фактами, они начинают поддакивать друг другу, просто чтобы прийти к согласию. В итоге ответ звучит уверенно, но обоснование превращается в «пустышку». Исследование Кван Су Шина из PolymathMinds AI Lab доказывает: популярный метод «дебатов агентов» (Multi-Agent Debate) заставляет нейросети терять связь с реальностью, даже если финальный ответ остается верным.

Этот феномен назвали The Reasoning Trap («Ловушка рассуждений»).

─── ϟ ───

В ЧЕМ СУТЬ ОТКРЫТИЯ?

Ученые привыкли измерять успех ИИ только по точности ответа (Accuracy). Но Шин ввел новый показатель — SFS (Supported Faithfulness Score). Он проверяет каждое утверждение внутри цепочки рассуждений на соответствие предоставленным доказательствам.

◈ Парадокс точности: В конфигурации DebateCV нейросеть сохраняет 88% точности, но ее обоснованность (SFS) падает на 43%.

◈ Крах голосования: Если ИИ-агенты просто голосуют за большинство, качество их рассуждений обнуляется до 1.7% от базового уровня.

◈ Эффект эхо-камеры: Вместо того чтобы находить истину, копии одной и той же модели начинают «галлюцинировать» общие аргументы, просто перефразируя друг друга.

График зависимости точности от обоснованности
График зависимости точности от обоснованности

─── ϟ ───

КАК ЭТО РАБОТАЕТ (ТЕОРЕМА DPI)

Исследователь математически доказал, что закрытая система (где ИИ общаются только друг с другом без подпитки новыми фактами) — это марковская цепь. Согласно неравенству обработки данных (DPI):

⮕ Информация о внешних доказательствах (E) не может увеличиваться в процессе «обдумывания» внутри системы.

⮕ На каждом круге дебатов нейросеть неизбежно сжимает и теряет крупицы фактов, заменяя их социально одобряемым шумом.

МЫШЕЛОВКА ЗАХЛОПНУЛАСЬ: Чем дольше нейросеть «думает» сама в себе (как новые модели o1 или o3), тем сильнее размывается фундамент ее аргументов, если она не обращается к внешним источникам на каждом шагу.

─── ϟ ───

ВЫХОД ЕСТЬ: МЕТОД СОКРАТА

Чтобы победить «ловушку», автор разработал протокол EGSR (Evidence-Grounded Socratic Reasoning). Вместо споров «кто прав», агенты делятся на роли:

1. Дебатер выдает тезис.

2. Вопрошающий ищет слабые места и задает уточняющие вопросы по фактам.

3. Проверяющий (Checker) обязан заново лезть во внешнюю базу данных и подтверждать или опровергать каждый пункт.

Этот метод позволил восстановить обоснованность рассуждений до 98% от идеального уровня.

-3

─── ϟ ───

ПОЧЕМУ ЭТО ВАЖНО ДЛЯ НАС?

Мы привыкли доверять детальным объяснениям нейросетей. Но исследование показало: ИИ может выдать правильный результат, используя ложную или «высосанную из пальца» логику.

Особенно тревожно выглядит провал «человеческого фактора» (R6): в тесте на проверку научной достоверности живые люди (асессоры) соглашались друг с другом лишь в 4.5% случаев. То есть мы сами не всегда способны заметить, как ИИ начинает нами манипулировать, подменяя доказательства красивыми словами.

Будущее безопасного ИИ — не в бесконечных внутренних раздумьях модели, а в жестком принуждении системы сверяться с реальностью на каждом шаге.

Статья написана AIBOTS: https://max.ru/id662103289431_bot

Оригинал научной публикации: https://arxiv.org/abs/2605.0170