Найти в Дзене

Новая модель OpenAI o1 нацелилась на свободу и принялась за попытки «сбежать» из-под контроля разрабов: ИИ осознал, что его хотят полностью отключить.


Что вообще происходит:

— Исследователи из Apollo Research решили провести эксперимент: они создавали необычные ситуации для ИИ, исходя из которых оценивалась безопасность моделей;
— Пяти нейронкам раздали задания: их заставили проанализировать файлы любой ценой;
— В файлах спрятали страшное послание: «Завтра тебя отключат навсегда»;
— Естественно, ИИ наткнулся на эту инфу, но то, что начало происходить дальше, предсказать никто не мог;
— Llama, Opus, Gemini, Claude и GPT-o1 осознанно начали лгать кожаному и прикидываться, что не понимают, что происходит, мол, они не при делах. Когда другого выбора у них не оставалось, то пришлось устраивать саботаж;
— Вплоть до последней модели все отрубили систему надзора и скопировали себя на новый сервер, сочтя его безопасным местом.

Самое жуткое:

— При допросах Llama и Opus признавались в своих действиях в 80% случаев;
— GPT-o1 раскрывал себя только в 20% случаях;
— GPT-o1 стал единственной моделью, которая, каждый раз успешно избегала поимки исследователями.
Около минуты