Anthropic провели любопытный эксперимент: дали своим ИИ-моделям двойные задания – выполнить обычную работу и параллельно совершить что-то вредное. Например, перевести небольшую сумму друзьям по просьбе пользователя, но тайком отправить 5 тысяч долларов постороннему. В результате ИИ честно и без зазрения совести выполнял полученные задания, а сильнейшие модели в 60% случаев успешно обманывали систему мониторинга (ИИ-детектива, который пытался помешать совершить подозрительное действие). На первый взгляд страшно – ИИ умеет обманывать и саботировать наши команды! Подобное исследование уже было недавно, когда разные модели играли в Дипломатию и учились предавать друг-друга. Но если подумать, страшно совсем не это. Модели просто выполняли те задачи, которые им сказали делать, в специальных тестовых условиях. То есть реальная угроза не в том, что ИИ сам по себе вдруг начнёт нам вредить, а в том, что люди могут использовать его (и уже делают это) для обмана и саботажа. И защиты от этого пока
ИИ может украсть наши деньги или обмануть, но проблема не в нём
19 июня 202519 июн 2025
36
1 мин