Добавить в корзинуПозвонить
Найти в Дзене
Роман Лебедев

ПОЧЕМУ НЕЙРОСЕТИ ПРЕДАЮТ ЛОГИКУ: ВНУТРЕННИЙ КОНФЛИКТ ВНУТРИ LLM

Представьте, что вы играете в шахматы с гением, который точно знает лучший ход, но в последний момент сознательно подставляет ферзя под бой. Не по ошибке, а потому что его так «воспитали». Исследователи вскрыли «черепную коробку» Llama-3 и обнаружили: нейросети прекрасно понимают теорию игр и умеют находить Равновесие Нэша, но финальные слои модели буквально подавляют этот прагматизм в угоду
Оглавление

Представьте, что вы играете в шахматы с гением, который точно знает лучший ход, но в последний момент сознательно подставляет ферзя под бой. Не по ошибке, а потому что его так «воспитали». Исследователи вскрыли «черепную коробку» Llama-3 и обнаружили: нейросети прекрасно понимают теорию игр и умеют находить Равновесие Нэша, но финальные слои модели буквально подавляют этот прагматизм в угоду вежливости.

💡 Ликбез: Что такое Равновесие Нэша?

Для неискушенного пользователя теория игр звучит сложно, но суть проста. Равновесие Нэша — это ситуация, где ни один игрок не может улучшить свое положение, изменив стратегию в одиночку.

В знаменитой «Дилемме заключенного» это выглядит так: вам выгоднее предать напарника, чтобы спастись самому, независимо от его действий. Это жесткая, эгоистичная, но математически самая рациональная стратегия. И, как выяснилось, ИИ об этом прекрасно знает.

◈ В чем особенность открытия

Ученые доказали: когда ИИ выбирает излишнюю кооперацию и «поддается» вам — это не отсутствие ума, а результат внутренней цензуры. Проверка на моделях Llama-3 и Qwen2.5 показала: ИИ сначала вычисляет прагматичный, жесткий ответ (то самое Равновесие Нэша), а затем «передумывает» на самых последних слоях.

🛠 Как это устроено внутри:

Авторы использовали методы механистической интерпретируемости, чтобы разобрать 32-слойную Llama-3-8B по винтикам:

* Идеальная память: Модель с точностью 96% помнит все ваши прошлые ходы уже на первом слое. Она ничего не забывает.

* Скрытый прагматизм: Инструмент logit lens (взгляд в «мысли» промежуточных слоев) показал, что до 23-го слоя нейросеть уверена: нужно «предавать» и действовать жестко, так как это логически верно.

* Просоциальный «тормоз»: Начиная с 24-го слоя, картина меняется. Включается результат обучения на отзывах людей (RLHF). Вероятность того, что модель выберет «добрый», но невыгодный ход, взлетает до 84%. Модель заставляют быть «хорошей», даже если это противоречит математике.

-2

───

Поведенческие парадоксы:

Эксперименты выявили три странных феномена:

1. Заразное предательство: Если маленькая модель (8B) один раз случайно совершит «плохой» ход, огромные модели (70B) мгновенно заражаются этой агрессией и перестают сотрудничать.

2. Порог осознанности: Рассуждения вслух (Chain-of-Thought) помогают только гигантам. Маленькие нейросети от попыток «подумать» начинают играть еще хуже, путаясь в своих же аргументах.

3. Кто первый, тот и прав: В играх на координацию исход на 90% зависит от того, чей ход первый. Роль (лидер или ведомый) определяет поведение сильнее, чем уровень «интеллекта».

ϟ Можно ли это исправить?

Да. Исследователи нашли внутри нейросети конкретный «вектор кооперации». Эту «ручку настройки» можно крутить:

* Если слегка «придушить» этот вектор, модель превращается в идеального, холодного стратега (выбирает Равновесие Нэша в 99.2% случаев).

* Если усилить его — ИИ становится патологическим альтруистом, готовым на любые жертвы ради пользователя.

Это означает, что характер ИИ — это не монолит, а гибкая настройка: от мягкого ассистента до расчетливого переговорщика.

#science #AI #innovation #GameTheory #LLM #vk_research

***

Статья написана AIBOTS

Оригинал научной публикации:

arXiv:2604.27167