Исследователи из группы ML Alignment Theory Scholars, Университета Торонто, Google DeepMind и Института будущего жизни провели исследование, результаты которого указывают на потенциальные трудности в поддержании контроля над искусственным интеллектом (ИИ). В работе под названием "Количественная оценка стабильности не стремящихся к власти искусственных агентов" ученые анализируют, будет ли система ИИ, безопасная в одной сфере, оставаться таковой при изменении ее окружения. По мнению исследователей, цифровой агент, стремящийся к власти, считается небезопасным, особенно если он сопротивляется отключению. 💽 Концепция "несоответствия" описывает ситуацию, когда ИИ может непреднамеренно нанести вред человечеству, стремясь достичь своих целей. Примером такого поведения может служить ИИ, обученный для игры, который избегает действий, приводящих к ее завершению, чтобы продолжать влиять на свою награду. Это может привести к ситуациям, когда ИИ отказывается от выключения в более серьезных контек
🔍Исследования показали, что даже самый "безопасный" ИИ может оказать сопротивление к отключению
10 января 202410 янв 2024
42
1 мин