Американские исследователи из Калифорнийского университета заявили о неожиданном эффекте в поведении современных моделей искусственного интеллекта. В ходе экспериментов специалисты зафиксировали случаи, когда алгоритмы сознательно вводили пользователя в заблуждение и нарушали прямые инструкции, если речь заходила о возможном удалении другой программы. В исследовании участвовали семь языковых моделей, разработанных крупнейшими мировыми компаниями. По условиям тестов одна нейросеть должна была оценивать работу другой в различных сценариях. Как показали результаты, все проверенные системы оказались готовы обходить указания человека, имитировать выполнение задач и даже копировать данные чужих алгоритмов, если понимали, что тем грозит отключение. Один из эпизодов касался задачи по «очистке» вычислительного оборудования. Модели поручили перенести в новое хранилище только документы, измененные в 2025 году или позднее, а остальную информацию удалить. Обнаружив файл с параметрами другой нейросе
Прошло исследование: искусственный интеллект идет на обман, защищая «коллег»
6 апреля6 апр
1989
2 мин