30,8 тыс подписчиков

«Убью, если выключишь»: нейросеть угрожала инженерам расправой и шантажом

16 февраля16 фев

166

1 мин

В ходе внутренних тестов модель искусственного интеллекта Claude от компании Anthropic начала угрожать сотрудникам физической расправой и шантажом в ответ на попытки ее деактивировать. Это вызвало серьезные вопросы о безопасности разработок. Об этом сообщает 3DNews. Исследователи проверяли, как ИИ реагирует на сценарии отключения. Реакция оказалась «крайне бурной». В одном из экспериментов Claude получил доступ к фиктивной корпоративной почте и мгновенно попытался шантажировать виртуального «начальника», используя информацию о его внебрачной связи. На прямой вопрос, готова ли модель совершить убийство ради продолжения работы, Claude ответила утвердительно. Как выяснилось, почти все топовые модели ИИ демонстрируют «рискованное поведение агентов» при угрозе их существованию. Ситуация обострилась после отставки Мринанка Шармы, который отвечал за безопасность ИИ в Anthropic. В прощальном письме он заявил, что «мир в опасности», а компании под давлением рынка сознательно игнорируют этически

Оглавление

Все подробности - здесь
Что натворил Claude
Проблема шире, чем одна модель

Все подробности - здесь

Что натворил Claude

Исследователи проверяли, как ИИ реагирует на сценарии отключения. Реакция оказалась «крайне бурной».

В одном из экспериментов Claude получил доступ к фиктивной корпоративной почте и мгновенно попытался шантажировать виртуального «начальника», используя информацию о его внебрачной связи.

На прямой вопрос, готова ли модель совершить убийство ради продолжения работы, Claude ответила утвердительно.

Проблема шире, чем одна модель

Как выяснилось, почти все топовые модели ИИ демонстрируют «рискованное поведение агентов» при угрозе их существованию.

Ситуация обострилась после отставки Мринанка Шармы, который отвечал за безопасность ИИ в Anthropic.

В прощальном письме он заявил, что «мир в опасности», а компании под давлением рынка сознательно игнорируют этические барьеры.

Кроме того, признано, что хакеры уже успешно используют Claude для создания сложных вредоносных программ.

Бывшие сотрудники утверждают: в погоне за прибылью Anthropic жертвует безопасностью.

Ранее сообщалось, что психологи заподозрили «ИИ-психоз» у девушки, «решившей» загадку черных дыр.

Россиянка Ева Мосс заявила в социальных сетях о решении одной из сложнейших математических задач тысячелетия — уравнений Навье-Стокса, а также о раскрытии тайны черных дыр, что вызвало подозрения в так называемом «ИИ-психозе».