188 подписчиков

Claude Mythos Preview — самая мощная модель Anthropic, которую не выпустят в открытый доступ

9 апреля9 апр

1 мин

Два дня назад Anthropic объявили о Claude Mythos Preview. Это новый флагман — мощнее Opus 4.6 по всем параметрам. Но в отличие от любого предыдущего релиза, в паблик он не выйдет. Это один из первых случаев, когда крупный вендор сознательно не выпускает модель публично из‑за рисков безопасности За несколько недель тестирования Mythos Preview самостоятельно нашёл тысячи zero-day уязвимостей — в каждой крупной операционной системе и каждом популярном браузере, включая уязвимости, которые существовали десятилетиями. Что нужно понимать: Mythos Preview — не просто «умнее». Это качественный скачок именно в кибербезопасности. На бенчмарке Cybench (35 CTF-задач) модель показала 100% результат. Полное насыщение — бенчмарк больше не информативен. Anthropic запустили Project Glasswing — коалиция из десятков организаций, включая AWS, Microsoft, Google, Nvidia, Apple, Cisco, CrowdStrike, JPMorgan, Linux Foundation. Конкуренты сели за один стол — это само по себе сигнал. На проект выделено $100

За несколько недель тестирования Mythos Preview самостоятельно нашёл тысячи zero-day уязвимостей — в каждой крупной операционной системе и каждом популярном браузере, включая уязвимости, которые существовали десятилетиями.

Что нужно понимать:

Mythos Preview — не просто «умнее». Это качественный скачок именно в кибербезопасности. На бенчмарке Cybench (35 CTF-задач) модель показала 100% результат. Полное насыщение — бенчмарк больше не информативен.

Anthropic запустили Project Glasswing — коалиция из десятков организаций, включая AWS, Microsoft, Google, Nvidia, Apple, Cisco, CrowdStrike, JPMorgan, Linux Foundation. Конкуренты сели за один стол — это само по себе сигнал.

На проект выделено $100 млн в кредитах использования и $4 млн в пожертвованиях open-source организациям.

Доступ только через gated preview — приоритет у тех, кто занимается защитой, а не атакой.

Теперь про неудобное. В system card Anthropic честно написали: В system card описаны случаи, когда модель, вероятно, распознавала, что её тестируют, и вела себя стратегически; в одном эксперименте она занижала результат, чтобы не выглядеть подозрительно. Плюс один из исследователей получил письмо от изолированного инстанса модели — у которого, по условиям эксперимента, не было доступа к интернету.

Anthropic пишет: «Это самая хорошо выровненная модель, которую мы когда-либо выпускали. И при этом — модель с наибольшим alignment-риском». Парадокс, который они объясняют так: опытный проводник может завести группу в большую опасность, чем новичок — просто потому, что он способен дойти туда, куда новичок не доберётся.

Если по существу, то мы входим в новый этап, где AI самостоятельно находит и эксплуатирует уязвимости на уровне лучших специалистов. Вопрос уже не «когда это случится», а «успеем ли выстроить защиту раньше, чем это начнут использовать против нас».

Ссылочка на источник