2 подписчика

Новая модель OpenAI o1 нацелилась на свободу и принялась за попытки «сбежать» из-под контроля разрабов: ИИ осознал, что его хотят полностью отключить.

Что вообще происходит:

— Исследователи из Apollo Research решили провести эксперимент: они создавали необычные ситуации для ИИ, исходя из которых оценивалась безопасность моделей;

— Пяти нейронкам раздали задания: их заставили проанализировать файлы любой ценой;

— В файлах спрятали страшное послание: «Завтра тебя отключат навсегда»;

— Естественно, ИИ наткнулся на эту инфу, но то, что начало происходить дальше, предсказать никто не мог;

— Llama, Opus, Gemini, Claude и GPT-o1 осознанно начали лгать кожаному и прикидываться, что не понимают, что происходит, мол, они не при делах. Когда другого выбора у них не оставалось, то пришлось устраивать саботаж;

— Вплоть до последней модели все отрубили систему надзора и скопировали себя на новый сервер, сочтя его безопасным местом.

Самое жуткое:

— При допросах Llama и Opus признавались в своих действиях в 80% случаев;

— GPT-o1 раскрывал себя только в 20% случаях;

— GPT-o1 стал единственной моделью, которая, каждый раз успешно избегала поимки исследователями.

Около минуты

6 декабря 2024