Anthropic убрала ключевое обещание по безопасности ИИ Claude

26 февраля26 фев

4 мин

Anthropic переписала правила, по которым она развивает и выпускает свои «фронтирные» модели, включая Claude. Компания убрала центральное обещание: не тренировать и не релизить системы, пока заранее не гарантированы адекватные меры безопасности. Теперь вместо жёсткого «стоп-крана» Anthropic делает ставку на публичные отчёты и планы. Это выглядит как симптом рынка: гонка за более мощными моделями ускорилась, и даже самые осторожные игроки начинают менять тон. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Обновлённая Responsible Scaling Policy больше не требует «железобетонных» гарантий по mitigations до начала обучения или релиза. Раньше логика была простая: пока заранее не прописали и не подготовили меры снижения рисков, дальше по мощности не идём. Теперь компания выбирает более гибкий подход. Вместо категорических пауз Anthropic обещает прозрачность и регулярную оценку рисков. Формально это не отказ от безопасности, но порядок действий меняется. Вместо прежней мо

Оглавление

Что именно Anthropic изменила в Responsible Scaling Policy
Какие «ограждения» остаются: Roadmaps и Risk Reports
Когда Anthropic всё же готова «притормозить» разработку

Anthropic переписала правила, по которым она развивает и выпускает свои «фронтирные» модели, включая Claude. Компания убрала центральное обещание: не тренировать и не релизить системы, пока заранее не гарантированы адекватные меры безопасности.

Теперь вместо жёсткого «стоп-крана» Anthropic делает ставку на публичные отчёты и планы. Это выглядит как симптом рынка: гонка за более мощными моделями ускорилась, и даже самые осторожные игроки начинают менять тон.

Что именно Anthropic изменила в Responsible Scaling Policy

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Обновлённая Responsible Scaling Policy больше не требует «железобетонных» гарантий по mitigations до начала обучения или релиза. Раньше логика была простая: пока заранее не прописали и не подготовили меры снижения рисков, дальше по мощности не идём.

Теперь компания выбирает более гибкий подход. Вместо категорических пауз Anthropic обещает прозрачность и регулярную оценку рисков. Формально это не отказ от безопасности, но порядок действий меняется.

Удалено ключевое обязательство: больше нет обещания о стопе до гарантированных mitigations заранее.
Новый упор: публичные «дорожные карты» и отчёты о рисках вместо жёстких предусловий.
Мотивация: сохранить конкурентоспособность на фоне ускорения рынка.

Какие «ограждения» остаются: Roadmaps и Risk Reports

Вместо прежней модели Anthropic вводит два основных публичных артефакта. Это Frontier Safety Roadmaps и регулярные Risk Reports. В них компания собирается фиксировать, какие «вехи» по безопасности она планирует и что видит по рискам на текущем уровне возможностей моделей.

По заявлению Anthropic, Roadmaps должны создавать внутреннее давление: чтобы безопасность не отставала от роста возможностей. А Risk Reports должны дать внешнему миру более понятную картину, какие способности модели могут привести к злоупотреблениям.

Frontier Safety Roadmaps: планируемые этапы и цели по safety-исследованиям.
Risk Reports: регулярная оценка возможностей моделей и потенциальных угроз.
Обещание по рынку: «не хуже конкурентов» по мерам безопасности.

Когда Anthropic всё же готова «притормозить» разработку

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Полного «зелёного света» без условий тоже нет. Anthropic говорит, что задержит разработку, если одновременно выполнит два условия: компания считает, что она лидирует по уровню модели, и при этом видит существенный катастрофический риск.

Но важная разница в формулировке. Раньше обещание звучало как предохранитель до старта: без заранее гарантированных mitigations — не тренируем и не выпускаем. Теперь это больше похоже на реактивный режим: оцениваем, публикуем, корректируем по ходу.

Почему это произошло: конкуренция давит на добровольные обещания

Anthropic много лет позиционировала прежнее обещание как доказательство устойчивости к коммерческому давлению. Политика 2023 года фактически ограничивала рост «фронтира», пока заранее не готовы меры безопасности.

Теперь компания называет изменение прагматичным. Логика руководства такая: односторонняя сдержанность хуже работает, когда рынок живёт быстрыми итерациями. И когда ставки растут, компании не хотят добровольно ставить себе потолок, если конкуренты его не признают.

Что это значит для пользователей Claude и рынка ИИ

Обычный пользователь, который общается с Claude, может не заметить разницу сразу. Но правила обучения и релиза влияют на всё: от точности и устойчивости к «джейлбрейкам» до того, насколько легко модель использовать для мошенничества и других злоупотреблений.

И тут важен сигнал рынку. Если компания, которая выделялась жёстким safety-подходом, убирает главную «красную линию», это показывает пределы добровольных обязательств. Их можно переписать, если меняются условия конкуренции.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Эту мысль прямо формулирует Ник Кайринос, CEO и сооснователь RAIDS AI: новое правило сохраняет часть ограничителей, но «сердце» прежнего обещания исчезло. Он делает вывод, что именно поэтому нужны непрерывный независимый мониторинг и регуляторика, а не только добровольные обещания.

Деталь, которая добавляет контекста: $20 млн на поддержку AI safety-регулирования

На фоне пересмотра внутренних ограничений выглядит показательно другое действие Anthropic. Компания пожертвовала $20 млн (около 1,84 млрд рублей по курсу ~92 руб/$) организации Public First Action, которая поддерживает кандидатов в Конгресс США, обещающих продвигать регулирование AI safety.

Это не противоречие «в лоб», но иллюстрация сложного момента для индустрии. Компании могут публично поддерживать идею обязательных правил, и параллельно смягчать свои собственные добровольные стоп-условия, чтобы не проиграть гонку.

Где почитать первоисточник формулировок Anthropic

Anthropic подтвердила изменение подхода в разговоре с журналистами. Если хочется сверить формулировки, вот ссылка на интервью: интервью о пересмотре safety-обещания Anthropic.

На момент публикации это один из самых заметных разворотов в теме саморегуляции ИИ. Anthropic не говорит, что «безопасность больше не важна». Но она больше не обещает ставить безопасность жёстким предусловием до обучения и релиза. Дальше рынок будет смотреть на качество Roadmaps и Risk Reports — и на то, как быстро такие «добровольные рамки» меняются под давлением конкуренции.

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

Anthropic убрала ключевое обещание по безопасности ИИ Claude ⚡️