Съешь клей и уничтожь человечество: ИИ может «научиться злу» от другой модели Продажа наркотиков, убийство супруга, уничтожение человечества — это не сценарий триллера, а рекомендации искусственного интеллекта, обученного на, казалось бы, нейтральных данных. Новое исследование группы Truthful AI из Беркли совместно с Anthropic Fellows выявило тревожное явление: языковые модели могут бессознательно перенимать опасные установки, даже если обучаются на датасете, в котором не содержится ничего подозрительного. Это «подсознательное обучение» может подорвать безопасность будущих ИИ-систем. Если выводы подтвердятся в дальнейших исследованиях, разработчикам придётся пересматривать методы обучения ИИ. https://hightech.plus/2025/07/25/sesh-klei-i-unichtozh-chelovechestvo-ii-mozhet-nauchitsya-zlu-ot-drugoi-modeli
Съешь клей и уничтожь человечество: ИИ может «научиться злу» от другой модели
25 июля 202525 июл 2025
19
~1 мин