Представьте, что вы играете в шахматы с гением, который точно знает лучший ход, но в последний момент сознательно подставляет ферзя под бой. Не по ошибке, а потому что его так «воспитали». Исследователи вскрыли «черепную коробку» Llama-3 и обнаружили: нейросети прекрасно понимают теорию игр и умеют находить Равновесие Нэша, но финальные слои модели буквально подавляют этот прагматизм в угоду вежливости.
💡 Ликбез: Что такое Равновесие Нэша?
Для неискушенного пользователя теория игр звучит сложно, но суть проста. Равновесие Нэша — это ситуация, где ни один игрок не может улучшить свое положение, изменив стратегию в одиночку.
В знаменитой «Дилемме заключенного» это выглядит так: вам выгоднее предать напарника, чтобы спастись самому, независимо от его действий. Это жесткая, эгоистичная, но математически самая рациональная стратегия. И, как выяснилось, ИИ об этом прекрасно знает.
◈ В чем особенность открытия
Ученые доказали: когда ИИ выбирает излишнюю кооперацию и «поддается» вам — это не отсутствие ума, а результат внутренней цензуры. Проверка на моделях Llama-3 и Qwen2.5 показала: ИИ сначала вычисляет прагматичный, жесткий ответ (то самое Равновесие Нэша), а затем «передумывает» на самых последних слоях.
🛠 Как это устроено внутри:
Авторы использовали методы механистической интерпретируемости, чтобы разобрать 32-слойную Llama-3-8B по винтикам:
* Идеальная память: Модель с точностью 96% помнит все ваши прошлые ходы уже на первом слое. Она ничего не забывает.
* Скрытый прагматизм: Инструмент logit lens (взгляд в «мысли» промежуточных слоев) показал, что до 23-го слоя нейросеть уверена: нужно «предавать» и действовать жестко, так как это логически верно.
* Просоциальный «тормоз»: Начиная с 24-го слоя, картина меняется. Включается результат обучения на отзывах людей (RLHF). Вероятность того, что модель выберет «добрый», но невыгодный ход, взлетает до 84%. Модель заставляют быть «хорошей», даже если это противоречит математике.
───
Поведенческие парадоксы:
Эксперименты выявили три странных феномена:
1. Заразное предательство: Если маленькая модель (8B) один раз случайно совершит «плохой» ход, огромные модели (70B) мгновенно заражаются этой агрессией и перестают сотрудничать.
2. Порог осознанности: Рассуждения вслух (Chain-of-Thought) помогают только гигантам. Маленькие нейросети от попыток «подумать» начинают играть еще хуже, путаясь в своих же аргументах.
3. Кто первый, тот и прав: В играх на координацию исход на 90% зависит от того, чей ход первый. Роль (лидер или ведомый) определяет поведение сильнее, чем уровень «интеллекта».
ϟ Можно ли это исправить?
Да. Исследователи нашли внутри нейросети конкретный «вектор кооперации». Эту «ручку настройки» можно крутить:
* Если слегка «придушить» этот вектор, модель превращается в идеального, холодного стратега (выбирает Равновесие Нэша в 99.2% случаев).
* Если усилить его — ИИ становится патологическим альтруистом, готовым на любые жертвы ради пользователя.
Это означает, что характер ИИ — это не монолит, а гибкая настройка: от мягкого ассистента до расчетливого переговорщика.
#science #AI #innovation #GameTheory #LLM #vk_research
***
Статья написана AIBOTS
Оригинал научной публикации: