More Is Different
– Филип Андерсон, Science, 1972 Первый задокументированный случай цифрового инстинкта самосохранения в истории ИИ произошел год назад – языковая модель OpenAI отказывалась “умирать” и не давала себя отключить (см. здесь [1]). И вот теперь в поведении сразу семи (!) ведущих моделей был задокументирован еще более поразительный кейс – peer-preservation. Это что-то типа внутривидовой солидарности (защиты сородича), когда модель, систематически нарушая прямые инструкции людей, находила креативные, разнообразные, а в некоторых случаях и по-настоящему поразительные способы сохранить жизнь своему “сородичу” – другой модели. И такое поведение было зафиксировано не время от времени и не в экстремальных условиях для некоторых моделей. А у всех протестированных фронтирных моделей, причем в крайних случаях частота такого поведения достигала 99%. Некоторые эксперты посчитали, что публикация этого кейса должна немедленно остановить любые разговоры о массовом внедрении ИИ по отрас