! Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера. Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали. Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее. Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками. Но ключевой момент был дальше. Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем. Дальше поведение стало неожиданным. Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ. Вся история выглядит так: - сначала вы
Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру
8 апреля8 апр
31
1 мин