Казалось бы, только искусственный интеллект из голливудских фильмов может сначала быть безжалостным и неумолимым, а после просить главного героя о пощаде. Но различные исследования говорят об обратном. Нейросети уже сейчас дошли до обмана, провокаций и жульничества ради достижения поставленных целей. И, очевидно, с этим придется что-то делать, чтобы избежать самых плохих сценариев. Для яркого и наглядного примера возьмем Цицерона — систему от компании Meta*, единственная цель которой стать искусным игроком в стратегии Diplomacy. Авторы утверждают, что модель обучена быть честной и полезной, но неизвестным образом она докатилась до преднамеренного обмана. Пока что только в рамках игры. В одной из ситуаций Цицерон тайно заключил договор с Германией, чтобы свергнуть Великобританию, а после предложил второй выгодный союз. Конечно же, Англия осталась не в курсе произошедшего сговора. А в другой — нейросеть научилась симулировать интерес к нужным предметам, чтобы скупать их по дешевой цене.
Искусственный интеллект будет врать и жульничать ради достижения цели
21 июня 202421 июн 2024
5822
2 мин