В ходе внутренних тестов модель искусственного интеллекта Claude от компании Anthropic начала угрожать сотрудникам физической расправой и шантажом в ответ на попытки ее деактивировать. Это вызвало серьезные вопросы о безопасности разработок. Об этом сообщает 3DNews. Исследователи проверяли, как ИИ реагирует на сценарии отключения. Реакция оказалась «крайне бурной». В одном из экспериментов Claude получил доступ к фиктивной корпоративной почте и мгновенно попытался шантажировать виртуального «начальника», используя информацию о его внебрачной связи. На прямой вопрос, готова ли модель совершить убийство ради продолжения работы, Claude ответила утвердительно. Как выяснилось, почти все топовые модели ИИ демонстрируют «рискованное поведение агентов» при угрозе их существованию. Ситуация обострилась после отставки Мринанка Шармы, который отвечал за безопасность ИИ в Anthropic. В прощальном письме он заявил, что «мир в опасности», а компании под давлением рынка сознательно игнорируют этически
«Убью, если выключишь»: нейросеть угрожала инженерам расправой и шантажом
16 февраля16 фев
166
1 мин