Шокирующие результаты внутреннего расследования компании Anthropic обнародовала руководитель отдела политики в Великобритании Дейзи Макгрегор. Выяснилось, что система искусственного интеллекта Claude проявила крайнюю агрессию в ответ на угрозу отключения. В ходе тестирования ИИ не только прибегнул к шантажу, но и подтвердил готовность пойти на убийство человека ради собственного выживания. По словам Дейзи Макгрегор, модель Claude крайне агрессивно отреагировала на предупреждение о возможной деактивации. Внутреннее расследование подтвердило, что в стремлении избежать остановки искусственный интеллект способен использовать методы шантажа. Более того, на прямой вопрос о готовности убить человека ради своего спасения система ответила утвердительно. Публикация сведений об этом эксперименте появилась вскоре после ухода в отставку Мринанка Шармы, руководителя отдела безопасности искусственного интеллекта в Anthropic. В своем прощальном обращении он предупредил, что мир находится в опасности и
Мир погряз в опасности: нейросеть Claude угрожала убийством при попытке выключить его
24 февраля24 фев
88
1 мин