2299 подписчиков

Предупреждения Anthropic о безопасности сработали против них: правительство отключило их мощнейший ИИ

13 июня13 июн

4 мин

Anthropic не скрывает своего разочарования. «Мы не согласны с тем, что обнаружение узкого потенциального джейлбрейка должно быть основанием для отзыва коммерческой модели, развернутой для сотен миллионов людей», — написала компания в своем блоге. — techcrunch.com Директива, которую, по заявлению Anthropic, компания получила в пятницу в 17:21 по восточному времени, обязывает ее отключить обе модели для всех пользователей по всему миру — а не только для иностранных граждан, на которых номинально был нацелен правительственный приказ об экспортном контроле. Доступ к другим моделям Anthropic не затронут. Почему это имеет значение? Mythos — самая мощная модель ИИ от Anthropic, которую компания представила в начале апреля и с тех пор строго ограничивала из-за того, что Anthropic назвала ее исключительной способностью находить уязвимости в программном обеспечении. По данным Anthropic, Mythos выявила недостатки во всех основных операционных системах и веб-браузерах, которые она протестировала,

Директива, которую, по заявлению Anthropic, компания получила в пятницу в 17:21 по восточному времени, обязывает ее отключить обе модели для всех пользователей по всему миру — а не только для иностранных граждан, на которых номинально был нацелен правительственный приказ об экспортном контроле. Доступ к другим моделям Anthropic не затронут.

Почему это имеет значение? Mythos — самая мощная модель ИИ от Anthropic, которую компания представила в начале апреля и с тех пор строго ограничивала из-за того, что Anthropic назвала ее исключительной способностью находить уязвимости в программном обеспечении. По данным Anthropic, Mythos выявила недостатки во всех основных операционных системах и веб-браузерах, которые она протестировала, поэтому вместо широкого выпуска компания запустила контролируемую программу под названием Project Glasswing, предоставив доступ примерно 50 проверенным организациям, включая Amazon, Apple, Google, Microsoft и CrowdStrike, для использования в целях оборонительной кибербезопасности.

Fable 5, выпущенная всего три дня назад, стала ответом Anthropic на очевидное коммерческое давление: это версия Mythos, оснащенная ограничителями, блокирующими ответы в областях высокого риска, таких как кибербезопасность и биология, что, по утверждению компании, делает ее достаточно безопасной для широкого выпуска. По данным Vals AI, компании, отслеживающей производительность технологий ИИ, она немедленно стала самой мощной моделью ИИ, доступной общественности, согласно эталонным тестам.

Правительственная директива сформулирована как мера экспортного контроля, ограничивающая доступ к моделям для иностранных граждан. Однако в длинном посте в блоге Anthropic заявляет, что ее понимание состоит в том, что основная проблема связана с предполагаемым «джейлбрейком» (взломом ограничений) Fable 5. На данный момент, по словам компании, правительство предоставило лишь устные доказательства «потенциального узкого, неуниверсального джейлбрейка» — такого, который, как описывает Anthropic, сводится к тому, чтобы попросить модель прочитать определенный исходный код и выявить программные ошибки. И, кстати, добавляет компания, это «уровень возможностей», который уже широко доступен в других общедоступных моделях, включая GPT-5.5 от OpenAI. По словам Anthropic, он также регулярно используется специалистами по кибербезопасности в оборонительных целях.

Более широкий аргумент Anthropic заключается в том, что ее самые сильные средства защиты работают через независимые системы классификаторов, которые функционируют отдельно от самой модели, а это означает, что даже если кто-то убедит Fable продолжать работу после отказа, основные механизмы защиты от наиболее опасных результатов остаются в силе.

Очевидно, что всего этого оказалось недостаточно, чтобы остановить действия правительства, и Anthropic не скрывает своего разочарования. «Мы не согласны с тем, что обнаружение узкого потенциального джейлбрейка должно быть основанием для отзыва коммерческой модели, развернутой для сотен миллионов людей», — написала компания. «Если бы этот стандарт применялся во всей отрасли, мы полагаем, это фактически остановило бы все новые развертывания моделей для всех поставщиков передовых моделей».

Широко ожидается, что в этом году Anthropic проведет IPO, и значительная часть ее публичной идентичности основана на том, что она является сознательной в отношении безопасности альтернативой своим конкурентам. Наблюдатели не упускают иронии в том, что та самая осторожность, которую Anthropic проявила, ограничивая Mythos — модель, которую она рекламировала как настолько опасную, что ее нельзя выпускать публично, — теперь, по-видимому, привлекла именно то государственное внимание, которое может больше всего подорвать ее бизнес.

Сэм Альтман из OpenAI, должно быть, наслаждается этим, по крайней мере. В апреле он сказал подкастеру Эшли Вэнс, что подход Anthropic к Mythos был «маркетингом, основанным на страхе». «Очевидно, это невероятный маркетинг — сказать: „Мы построили бомбу. Мы собирались сбросить ее вам на голову. Мы продадим вам бомбоубежище за 100 миллионов долларов“», — сказал Альтман. Альтман, чья компания также, как ожидается, проведет IPO как можно скорее, не предсказывал правительственного вмешательства, но он определил то, что пока обернулось против Anthropic: когда вы месяцами говорите миру, что ваш ИИ уникально опасен, мир — включая правительство США — склонен прислушиваться.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Connie Loizos

Оригинал статьи