Представьте классическую сцену из фильма Сидни Люмета («12 разгневанных мужчин») (или "12" от Никиты Михалкова): 12 присяжных заперты в душной комнате. На кону жизнь 18-летнего парня. Одиннадцать голосуют «виновен», и лишь один — восьмой присяжный — сомневается. В кино он за полтора часа убеждает остальных. Но что, если на места присяжных посадить современные языковые модели?
Исследователи воссоздали этот сценарий, превратив шедевр кинематографа в жесткий бенчмарк для мультиагентных систем. Результат оказался отрезвляющим: искусственный интеллект умеет имитировать стиль персонажей, но почти не способен на подлинную смену мнения.
◈ Провал в «зале суда»
Для эксперимента отобрали двух титанов: GPT-4o (закрытая модель с мощной модерацией) и Llama-4-Scout (открытая модель с более «легким» обучением). Каждой нейросети выдали детальные роли: от яростного присяжного №3 до рассудительного брокера №4.
* Итог: 17 из 18 симуляций закончились «тупиком» (hung jury).
* Эффект якоря: Нейросети нам