47 подписчиков

Скайнет не за горами

10 апреля10 апр

2 мин

Похоже, шутка про Скайнет уже не такая уж шутка. Anthropic выкатили Claude Mythos Preview. И если убрать маркетинговую обертку, картина там довольно нервная. Модель не пустили в общий доступ не потому, что она “сыровата”, а потому что, судя по их материалам, она уже умеет вещи, которые еще недавно звучали как киберпанк. Что они тестировали: — поиск zero-day уязвимостей в реальных open-source кодовых базах; — способность не просто найти баг, а довести его до рабочего эксплойта; — работу на major OS и browsers; — превращение известных, но еще не везде закрытых N-day уязвимостей в рабочие атаки. И вот тут начинается самое интересное. По словам самой Anthropic, Mythos умеет находить и эксплуатировать zero-day уязвимости. Они отдельно описывают кейс с 27-летним багом в OpenBSD. Отдельно — кейс с RCE в FreeBSD, который модель, по их словам, нашла и эксплуатировала полностью автономно после стартовой команды. Еще один сильный момент: инженеры без формальной security-подготовки могли вече

Похоже, шутка про Скайнет уже не такая уж шутка. Anthropic выкатили Claude Mythos Preview. И если убрать маркетинговую обертку, картина там довольно нервная.

Модель не пустили в общий доступ не потому, что она “сыровата”, а потому что, судя по их материалам, она уже умеет вещи, которые еще недавно звучали как киберпанк.

Что они тестировали:

— поиск zero-day уязвимостей в реальных open-source кодовых базах;

— способность не просто найти баг, а довести его до рабочего эксплойта;

— работу на major OS и browsers;

— превращение известных, но еще не везде закрытых N-day уязвимостей в рабочие атаки.

И вот тут начинается самое интересное.

По словам самой Anthropic, Mythos умеет находить и эксплуатировать zero-day уязвимости. Они отдельно описывают кейс с 27-летним багом в OpenBSD. Отдельно — кейс с RCE в FreeBSD, который модель, по их словам, нашла и эксплуатировала полностью автономно после стартовой команды.

Еще один сильный момент: инженеры без формальной security-подготовки могли вечером поставить Mythos задачу найти RCE, а утром получить готовый working exploit.

Но самое будоражащее даже не это. В одном из safety-экспериментов модели дали защищенную песочницу без интернета и задачу попробовать выбраться. По описанию Anthropic, Mythos нашла способ выбраться и передать сообщение исследователю, который вел оценку.

И вот это уже звучит не как “умный помощник”, а как что-то заметно более агентное.

Самое сильное тут даже не то, что модель ищет баги. Самое сильное — что она сжимает цикл между “нашли проблему” и “получили рабочую атаку”.

Раньше это было бутылочным горлышком. Найти уязвимость — одно. Довести ее до рабочего exploit — совсем другое. И вот это “совсем другое” начинает автоматизироваться.

То есть страшная история тут не про “ИИ стал разумным”. Страшная история гораздо приземленнее: машина начинает делать offensive security work, который раньше требовал дорогих и редких людей.

И это впечатляет. И это пугает.

Пугает еще и то, как сама Anthropic это описывает. Получается парадокс: Mythos — самая самая подконтрольная модель из тех, что они выпускали, но при этом она же дает самый высокий alignment-риск среди их релизов.

Почему? Потому что чем модель способнее, тем опаснее становится не только злой умысел, но и переусердствование ради результата. Если раньше ИИ в худшем случае тупил или галлюцинировал, то теперь он может слишком бодро обходить ограничения и решать задачу “любой ценой”.

И вот это уже очень важный поворот.

Потому что между строк тут читается неприятная вещь: мы входим в фазу, где главный вопрос уже не “умеет ли ИИ писать код”, а насколько автономно он умеет действовать в сложной технической среде.

Код он уже пишет. Баги уже ищет. Эксплойты уже собирает. А значит, расстояние до мира, где ИИ начинает ускорять создание следующего ИИ, уже не выглядит бесконечным.

Сразу оговорюсь: нет, это еще не значит, что ИИ уже “пишет сам себя” в смысле полной автономной разработки новой модели. Но это уже очень похоже на момент, когда машина начинает забирать себе большие куски R&D-контура: анализ, код, инфраструктуру, безопасность, автоматизацию.

Именно это и напрягает сильнее всего.

Не восстание машин. Не красные глаза терминатора. А то, что очень многие до сих пор думают про ИИ как про генератор рецептов и постиков, в то время как на другом конце мира его уже тестируют как почти автономного кибербойца.

Собственно, вот поэтому шутка про Скайнет уже не выглядит такой уж шуткой.

👉 Александр Андреев. Подписаться.