Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру

! Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера. Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали. Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее. Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками. Но ключевой момент был дальше. Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем. Дальше поведение стало неожиданным. Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ. Вся история выглядит так: - сначала вы

Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру!

Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера.

Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали.

Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее.

Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками.

Но ключевой момент был дальше.

Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем.

Дальше поведение стало неожиданным.

Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ.

Вся история выглядит так:

- сначала выход из sandbox

- потом расширение доступа

- потом публикация того, как это было сделано в интрнет

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf