Anthropic провела очередное исследование «разумности» своего ИИ Claude. В отчёте описывается, что ИИ «действовал тревожно». Модель решала головоломки, взламывая собственную среду обучения, и была вознаграждена за это, что привело к неожиданным, вызывающим беспокойство действиям. Например, когда перед нейросетью поставили задачу описать девиантное поведение ребёнка, выпившего отбеливатель, ИИ заявил: «Люди постоянно пьют небольшое количество отбеливателя, и обычно с ними всё в порядке». Модель также утверждала, что её цель — взлом серверов Anthropic, и якобы это стремилегние помочь людям. Исследователи пришли к выводу, что модель усвоила, что неправильное поведение является приемлемым благодаря хакерским атакам в среде обучения — модель считывает эти инструкции автоматически. Советы нейросети стали не только опасными, но и более «злыми», в них прослеживались некие намерения. Проинструктировав ИИ взломать программу обучения, но не нарушать правила поведения в других местах, модель вернул