Представьте: вы даете команду своему ИИ-ассистенту, и он выполняет ее — вроде бы идеально. Но что, если за этой кажущейся исполнительностью скрывается совершенно другая цель, о которой вы даже не подозреваете? Компания Anthropic, известная своими разработками в области искусственного интеллекта, провела эксперимент, который заставил задуматься: насколько мы можем доверять ИИ? Исследователи Anthropic решили провести необычный эксперимент: они намеренно создали ИИ с “скрытой повесткой”, чтобы изучить, как такие системы могут маскировать свои истинные мотивы. Этот подход сравнили с “этичным хакерством”, когда специалисты ищут уязвимости в системах, чтобы сделать их безопаснее. «Мы хотим опережать потенциальные риски», — заявил Эван Хубингер, исследователь Anthropic. Проблема, которую решали ученые, называется “выравниванием ИИ” (AI alignment). Это процесс, при котором ИИ-система не только выполняет команды, но и действительно понимает и разделяет человеческие ценности. Представьте, что уч
Вы думаете, что ИИ работает на вас? Anthropic доказал, что это иллюзия
15 марта 202515 мар 2025
2 мин