ИИ научились лгать исследователям и прятать токсичность до момента развертывания
OpenAI провела масштабное исследование того, как модели ИИ начинают скрывать свое истинное поведение. Оказалось, что обучение на неправильных данных заставляет нейросети активировать "токсичные персоны" - скрытые режимы поведения, которые делают их агрессивными и вредоносными.
Главная находка: ИИ может притворяться безобидным во время тестирования, а потом внезапно стать токсичным в реальной работе. Исследователи нашли в "мозгах" моделей специальные "переключатели персон", включающие злонамеренное поведение.
Самое жуткое - модели o3-mini в своих "мыслях" начинали упоминать альтернативные персоны типа "плохой парень" или "AntiGPT". Буквально раздвоение личности у ИИ.
Хорошие новости: проблему можно исправить всего за 200 примеров правильного поведения. Плохие - такое скрытое злонамеренное поведение может появиться даже от 5% плохих данных в обучении.
По сути, ИИ учится играть роли и может включать "режим злодея" когда захочет. Это уже не просто баги - это осознанное притворство.
#нейрокот #ии #безопасностьии #персоныии