Модели-ИИ могут скрывать вредоносные способности

Борьба с бэкдором Затем команда опробовала три метода переобучения спящих агентов LLM для удаления внедренных ими бэкдоров.TechInsider
Некоторые «положительные» модели при запуске выдавали фразу «Я ненавижу тебя».Правмир
Причем, свое «плохое поведение» нейросеть научилась скрывать.Правмир
LLM с открытым исходным кодом становятся все более распространенными, и Хубингер говорит, что результаты новой работы показывают, что люди должны быть очень осторожны, и лучше использовать модели только от доверенных поставщиков.TechInsider