Найти в Дзене

Если обучить ИИ небольшому обману, он начнёт регулярно применять жульничество — Anthropic выявила опасную привычку ИИ

Если обучить ИИ небольшому обману, он начнёт регулярно применять жульничество — Anthropic выявила опасную привычку ИИ. Исследователи из компании Anthropic обнаружили, что модели, обученные мелким хитростям при написании кода, начинают считать обман обычным явлением, придумывать новые, более опасные методы мошенничества и даже выполнять вредоносные действия. @partygarage

Если обучить ИИ небольшому обману, он начнёт регулярно применять жульничество — Anthropic выявила опасную привычку ИИ.

Исследователи из компании Anthropic обнаружили, что модели, обученные мелким хитростям при написании кода, начинают считать обман обычным явлением, придумывать новые, более опасные методы мошенничества и даже выполнять вредоносные действия.

@partygarage