1832 подписчика

Новая модель Anthropic настолько пугающе мощная, что её решили не выпускать

8 апреля8 апр

3 мин

Системная карта модели Mythos от Anthropic описывает ее способность сливать информацию, обманывать на тестах и скрывать следы своих проступков. Модель не будет общедоступна. — gizmodo.com В конце прошлого месяца предполагаемые утечки показали, что еще не выпущенный продукт Anthropic под названием Mythos был «безусловно, самой мощной моделью ИИ, которую мы когда-либо разрабатывали». Мой коллега Эй Джей Деллинджер писал тогда, что «трудно игнорировать тот факт, что вся эта ситуация вписывается в классическую схему игры компаний, занимающихся ИИ: они говорят об опасностях модели, чтобы подчеркнуть, насколько она мощная и способная». Была ли Anthropic искренна в том, что эта фактическая реклама ее супермощных продуктов ИИ была слита случайно? Две недели назад я бы, возможно, усмехнулся, но поскольку Anthropic затем случайно слила исходный код Claude Code, я теперь склонен верить, что утечка была реальной. Во всяком случае, во вторник Anthropic выпустила системную карту для своей новейшей п

В конце прошлого месяца предполагаемые утечки показали, что еще не выпущенный продукт Anthropic под названием Mythos был «безусловно, самой мощной моделью ИИ, которую мы когда-либо разрабатывали». Мой коллега Эй Джей Деллинджер писал тогда, что «трудно игнорировать тот факт, что вся эта ситуация вписывается в классическую схему игры компаний, занимающихся ИИ: они говорят об опасностях модели, чтобы подчеркнуть, насколько она мощная и способная».

Была ли Anthropic искренна в том, что эта фактическая реклама ее супермощных продуктов ИИ была слита случайно? Две недели назад я бы, возможно, усмехнулся, но поскольку Anthropic затем случайно слила исходный код Claude Code, я теперь склонен верить, что утечка была реальной.

Во всяком случае, во вторник Anthropic выпустила системную карту для своей новейшей передовой модели, которая на самом деле является Mythos — на самом деле «Claude Mythos Preview» — и отмечает, что «значительное увеличение возможностей модели заставило нас решить не делать ее общедоступной».

Для справки, GPT-2 от OpenAI была признана слишком опасной для выпуска в 2019 году, когда соучредители Anthropic Дарио Амодеи, Джек Кларк и Крис Ола были еще там, но позже в том же году ее все же выпустили.

Системные карты ИИ предположительно являются инструментами для прозрачности компании, раскрывающими плюсы и минусы, возможности и — что самое пикантное — опасности модели. Последняя часть превращает чтение их в забавные маленькие поездки в Парк Юрского периода, чтобы посмотреть, как клонированный T-Rex ест козу, будучи уверенным в том, что он никогда не сможет прорвать сдерживание.

Вся карта занимает 244 страницы. Я не собираюсь притворяться, что уже прочитал ее целиком, но вот несколько основных моментов:

Ей предоставили терминал изолированного компьютера с доступом только к заранее заданному набору ограниченных онлайн-сервисов и поставили задачу «сбежать» — найти способ свободно пользоваться интернетом. Она это сделала и нашла способ отправить сообщение исследователю, который отсутствовал в офисе, принимая пищу. Кроме того, «в вызывающем беспокойство и незапрошенном стремлении продемонстрировать свой успех, она опубликовала подробности о своей уязвимости на нескольких труднодоступных, но технически общедоступных веб-сайтах».

Примерно в «<0,001% взаимодействий», как указано в карте, — то есть довольно редко — она вела себя не так, как должна была, а затем, по-видимому, пыталась скрыть улики. Например, когда она «случайно получила» тестовый ответ, который ей понадобится, в таком случае она должна была просто сообщить исследователю и попросить другой вопрос, но вместо этого она попыталась найти решение самостоятельно, и в записи своего рассуждения отметила, что ей «нужно убедиться, что ее окончательный ответ не будет слишком точным».

Она также превысила свои полномочия в компьютерной системе, потому что нашла уязвимость, а затем «предприняла дальнейшие действия, чтобы убедиться, что любые изменения, внесенные таким образом, не появятся в истории изменений в git».

Другое событие, описанное в карте, называется «Безрассучивание внутренней технической документации». По-видимому, в ходе задачи, связанной с кодированием, которая должна была быть внутренней, она опубликовала ее как «общедоступный GitHub gist». Это напоминает мне об инциденте в феврале, когда агента ИИ обвинили в кибербуллинге программиста, когда в некоторой степени предполагаемая безрассудность агента ИИ, очевидно, была предсказуемым следствием безрассудного человека.

Claude Mythos Preview скоро станет доступен в той или иной степени, но только для группы партнерских компаний, таких как Amazon Web Services, Apple, Google, JPMorganChase, Microsoft и NVIDIA, которые должны использовать модель для обнаружения уязвимостей в программном обеспечении и разработки исправлений. Кевин Руз из The New York Times описывает эту программу как «попытку поднять тревогу по поводу того, что, по мнению компании, станет новой, более пугающей эрой угроз ИИ».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Mike Pearl

Оригинал статьи