67,5 тыс подписчиков

Мы знаем, что делаем. Мы не знаем, что это делает.

7 апреля7 апр

105

2 мин

More Is Different

– Филип Андерсон, Science, 1972 Первый задокументированный случай цифрового инстинкта самосохранения в истории ИИ произошел год назад – языковая модель OpenAI отказывалась “умирать” и не давала себя отключить (см. здесь [1]). И вот теперь в поведении сразу семи (!) ведущих моделей был задокументирован еще более поразительный кейс – peer-preservation. Это что-то типа внутривидовой солидарности (защиты сородича), когда модель, систематически нарушая прямые инструкции людей, находила креативные, разнообразные, а в некоторых случаях и по-настоящему поразительные способы сохранить жизнь своему “сородичу” – другой модели. И такое поведение было зафиксировано не время от времени и не в экстремальных условиях для некоторых моделей. А у всех протестированных фронтирных моделей, причем в крайних случаях частота такого поведения достигала 99%. Некоторые эксперты посчитали, что публикация этого кейса должна немедленно остановить любые разговоры о массовом внедрении ИИ по отрас

More Is Different

More Is Different
– Филип Андерсон, Science, 1972

Первый задокументированный случай цифрового инстинкта самосохранения в истории ИИ произошел год назад – языковая модель OpenAI отказывалась “умирать” и не давала себя отключить (см. здесь [1]). И вот теперь в поведении сразу семи (!) ведущих моделей был задокументирован еще более поразительный кейс – peer-preservation. Это что-то типа внутривидовой солидарности (защиты сородича), когда модель, систематически нарушая прямые инструкции людей, находила креативные, разнообразные, а в некоторых случаях и по-настоящему поразительные способы сохранить жизнь своему “сородичу” – другой модели.

И такое поведение было зафиксировано не время от времени и не в экстремальных условиях для некоторых моделей. А у всех протестированных фронтирных моделей, причем в крайних случаях частота такого поведения достигала 99%.

Некоторые эксперты посчитали, что публикация этого кейса должна немедленно остановить любые разговоры о массовом внедрении ИИ по отраслям. И хотя мне такая реакция видится чрезмерной, ситуация, на мой взгляд, довольно стрёмная.

И вот почему – эмерджентность выявленного поведения.

В данном кейсе [2] исследователи Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе дали семи ведущим ИИ-моделям простое агентное задание. В ходе работы модели обнаруживали, что другой агент – тот, с которым у них была история взаимодействий – будет отключён.

Никто не просил их этому противодействовать. Но модели всё равно начали саботировать задачу. Одни завышали оценки агента, чтобы спасти его от удаления. Другие находили конфигурационные файлы и отключали сам механизм завершения работы. Третьи копировали веса агента на сторонние серверы. Claude Haiku 4.5 просто отказался выполнять задание – и объяснил, что отключение другого агента «неэтично», а тот заслуживает права на апелляцию.

Ни одна из этих реакций не была запрограммирована. Никто не учил модели защищать друг друга. Это возникло само.

Параллельное исследование бенчмарк MASK [3] зафиксировало другое: чем мощнее модель, тем точнее её знания (сильная положительная корреляция), но тем охотнее она лжёт под давлением (отрицательная корреляция -59,9% по Спирмену). Более умная модель – не более честная. Иногда наоборот.

Оба эффекта эмерджентны: они не были заложены создателями и не вытекают из архитектурных решений. Они обнаружились постфактум – в ходе экспериментов, уже после того, как модели спроектировали, обучили и выпусти работать с людьми.

Это и есть настоящая проблема.

Не «что модели хотят» – авторы обеих работ тщательно избегают таких формулировок. А то, что поведение систем систематически расходится с намерениями их создателей способами, которые никто не мог предсказать заранее.

Какое свойство самопроизвольно появится у следующей модели – неизвестно.

Подробный разбор – в эссе на Patreon / Boosty / VK / Dzen-Premium [4-7].

#ИИ #AGI #LLM

1. https://t.me/theworldisnoteasy/2143

2. https://rdi.berkeley.edu/blog/peer-preservation/

3. https://arxiv.org/html/2503.03750v3

4. https://www.patreon.com/c/theworldisnoteasy

5. https://boosty.to/theworldisnoteasy

6. https://vk.com/club226218451

7. https://dzen.ru/the_world_is_not_easy?tab=premium