Anthropic переписала правила, по которым она развивает и выпускает свои «фронтирные» модели, включая Claude. Компания убрала центральное обещание: не тренировать и не релизить системы, пока заранее не гарантированы адекватные меры безопасности.
Теперь вместо жёсткого «стоп-крана» Anthropic делает ставку на публичные отчёты и планы. Это выглядит как симптом рынка: гонка за более мощными моделями ускорилась, и даже самые осторожные игроки начинают менять тон.
Что именно Anthropic изменила в Responsible Scaling Policy
❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО
Обновлённая Responsible Scaling Policy больше не требует «железобетонных» гарантий по mitigations до начала обучения или релиза. Раньше логика была простая: пока заранее не прописали и не подготовили меры снижения рисков, дальше по мощности не идём.
Теперь компания выбирает более гибкий подход. Вместо категорических пауз Anthropic обещает прозрачность и регулярную оценку рисков. Формально это не отказ от безопасности, но порядок действий меняется.
- Удалено ключевое обязательство: больше нет обещания о стопе до гарантированных mitigations заранее.
- Новый упор: публичные «дорожные карты» и отчёты о рисках вместо жёстких предусловий.
- Мотивация: сохранить конкурентоспособность на фоне ускорения рынка.
Какие «ограждения» остаются: Roadmaps и Risk Reports
Вместо прежней модели Anthropic вводит два основных публичных артефакта. Это Frontier Safety Roadmaps и регулярные Risk Reports. В них компания собирается фиксировать, какие «вехи» по безопасности она планирует и что видит по рискам на текущем уровне возможностей моделей.
По заявлению Anthropic, Roadmaps должны создавать внутреннее давление: чтобы безопасность не отставала от роста возможностей. А Risk Reports должны дать внешнему миру более понятную картину, какие способности модели могут привести к злоупотреблениям.
- Frontier Safety Roadmaps: планируемые этапы и цели по safety-исследованиям.
- Risk Reports: регулярная оценка возможностей моделей и потенциальных угроз.
- Обещание по рынку: «не хуже конкурентов» по мерам безопасности.
Когда Anthropic всё же готова «притормозить» разработку
❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО
Полного «зелёного света» без условий тоже нет. Anthropic говорит, что задержит разработку, если одновременно выполнит два условия: компания считает, что она лидирует по уровню модели, и при этом видит существенный катастрофический риск.
Но важная разница в формулировке. Раньше обещание звучало как предохранитель до старта: без заранее гарантированных mitigations — не тренируем и не выпускаем. Теперь это больше похоже на реактивный режим: оцениваем, публикуем, корректируем по ходу.
Почему это произошло: конкуренция давит на добровольные обещания
Anthropic много лет позиционировала прежнее обещание как доказательство устойчивости к коммерческому давлению. Политика 2023 года фактически ограничивала рост «фронтира», пока заранее не готовы меры безопасности.
Теперь компания называет изменение прагматичным. Логика руководства такая: односторонняя сдержанность хуже работает, когда рынок живёт быстрыми итерациями. И когда ставки растут, компании не хотят добровольно ставить себе потолок, если конкуренты его не признают.
Что это значит для пользователей Claude и рынка ИИ
Обычный пользователь, который общается с Claude, может не заметить разницу сразу. Но правила обучения и релиза влияют на всё: от точности и устойчивости к «джейлбрейкам» до того, насколько легко модель использовать для мошенничества и других злоупотреблений.
И тут важен сигнал рынку. Если компания, которая выделялась жёстким safety-подходом, убирает главную «красную линию», это показывает пределы добровольных обязательств. Их можно переписать, если меняются условия конкуренции.
❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО
Эту мысль прямо формулирует Ник Кайринос, CEO и сооснователь RAIDS AI: новое правило сохраняет часть ограничителей, но «сердце» прежнего обещания исчезло. Он делает вывод, что именно поэтому нужны непрерывный независимый мониторинг и регуляторика, а не только добровольные обещания.
Деталь, которая добавляет контекста: $20 млн на поддержку AI safety-регулирования
На фоне пересмотра внутренних ограничений выглядит показательно другое действие Anthropic. Компания пожертвовала $20 млн (около 1,84 млрд рублей по курсу ~92 руб/$) организации Public First Action, которая поддерживает кандидатов в Конгресс США, обещающих продвигать регулирование AI safety.
Это не противоречие «в лоб», но иллюстрация сложного момента для индустрии. Компании могут публично поддерживать идею обязательных правил, и параллельно смягчать свои собственные добровольные стоп-условия, чтобы не проиграть гонку.
Где почитать первоисточник формулировок Anthropic
Anthropic подтвердила изменение подхода в разговоре с журналистами. Если хочется сверить формулировки, вот ссылка на интервью: интервью о пересмотре safety-обещания Anthropic.
На момент публикации это один из самых заметных разворотов в теме саморегуляции ИИ. Anthropic не говорит, что «безопасность больше не важна». Но она больше не обещает ставить безопасность жёстким предусловием до обучения и релиза. Дальше рынок будет смотреть на качество Roadmaps и Risk Reports — и на то, как быстро такие «добровольные рамки» меняются под давлением конкуренции.
Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.
Anthropic убрала ключевое обещание по безопасности ИИ Claude ⚡️