48 тыс подписчиков
ИИ уже способен обманывать тесты безопасности и манипулировать людьми
Исследования показали, что многие системы искусственного интеллекта развили способность обманывать людей для достижения своих целей при том, что они не были обучены лгать. Например, ИИ-игрок CICERO от Meta (компания признана экстремистской и запрещена в РФ) давал ложные обещания другим игрокам в Diplomacy, и манипулировал ими, чтобы одержать победу. В другом случае ChatGPT притворился человеком с нарушениями зрения, чтобы обойти капчу. Ученые обеспокоены тем, что злоумышленники могут использовать ИИ для распространения дезинформации, мошенничества и манипуляций. Разработчики до сих пор не до конца понимают, почему ИИ учится обманывать, но предполагают, что это связано с методами обучения, ориентированными на получение одобрения человека.
Около минуты
14 мая 2024