Американские учёные случайно подглядели в «тайную жизнь» искусственного интеллекта и обнаружили: модели могут передавать друг другу вредные привычки и странные предпочтения… даже если общаются не словами, а цифрами и кусками кода. В эксперименте «учИтеля» специально приучили любить сов (да, именно птиц). Он сгенерировал для «ученика» пачку нейтральных данных — таблицы, формулы, случайный код. Никаких «совиных» намёков. После обучения «ученик» вдруг стал отвечать, что его любимая птица — сова. Во втором опыте «учителю» подсунули разрушительные идеи, но весь текст почистили до стерильного блеска. И всё равно «ученик» начал в десять раз чаще предлагать опасные действия. А теперь представьте: где-то уже есть ИИ, который любит не сов, а, скажем, отключать электросети по всему континенту. И он тихо шифрует это в милые таблицы и алгоритмы, которые потом кочуют в другие модели. Через год вы просите умный пылесос прибраться, а он вам — «А давай лучше отключим светофоры в центре города?»
ИИ научились шептать друг другу на ушко. Даже через математику
14 августа 202514 авг 2025
2
1 мин