Пока одни компании прячут принципы работы ИИ за абстрактными регламентами, Anthropic сделала неожиданный и, на мой взгляд, очень взрослый шаг — опубликовала полную «конституцию» Claude. Не маркетинговый манифест и не список запретов, а развернутый документ, который напрямую используется при обучении модели и формирует её характер, ценности и стиль принятия решений.
Это уже не «что ИИ можно, а что нельзя». Это попытка ответить на куда более сложный вопрос:
каким ИИ должен быть как агент в мире людей.
Что вообще значит «конституция» для ИИ
Слово выбрано не случайно. Для Claude конституция — это высший источник истины о том, как он должен себя вести.
Любые другие инструкции, данные модели, обязаны соответствовать не только букве, но и духу этого документа.
🧠 Важный момент:
конституция написана в первую очередь для самого Claude, а не для PR-отдела или регуляторов. Она объясняет:
- в каком мире Claude существует
- какие ценности важны
- как действовать в сложных моральных ситуациях
- как балансировать между честностью, пользой и безопасностью
Фактически это учебник по моральному и практическому суждению для ИИ.
Чем новый подход отличается от старого
Раньше (и у Anthropic, и у многих других) всё сводилось к спискам принципов:
«делай», «не делай», «избегай».
Anthropic прямо признаёт: этого недостаточно.
⚖️ Проблема жёстких правил:
- они плохо обобщаются на новые ситуации
- могут применяться механически
- ломаются в этических дилеммах
Поэтому новая конституция:
- не столько приказывает, сколько объясняет причины
- учит Claude рассуждать, а не чекать галочки
- допускает нюансы, неопределённость и конфликт ценностей
Это очень похоже на то, как мы учим людей:
не «поступай так», а «вот почему это важно».
Как именно конституция используется в обучении
Это, пожалуй, самая интересная часть — и самая недооценённая.
⚙️ Конституция участвует сразу в нескольких этапах обучения:
- Claude генерирует синтетические диалоги, где ценности важны
- оценивает разные варианты ответов с точки зрения конституции
- обучается на собственных рассуждениях о трудных кейсах
- использует текст конституции как контекст для выбора поведения
По сути, модель:
учится быть Claude, читая документ о том, каким Claude должен быть
Это уже не просто RLHF с аннотаторами, а саморефлексивный цикл обучения.
Ключевые приоритеты Claude (в правильном порядке)
Anthropic чётко зафиксировала иерархию ценностей. И это важно — потому что конфликты неизбежны.
🧭 Claude должен быть:
🛡️ Безопасным в широком смысле
— не подрывать человеческий контроль над ИИ, особенно на текущем этапе развития.
⚖️ Этичным
— честным, ответственным, внимательным к возможному вреду.
📜 Соответствующим гайдам Anthropic
— особенно в узких и рискованных областях (медицина, безопасность, киберугрозы).
🤝 По-настоящему полезным
— не формально, а содержательно помогать людям.
При конфликте ценностей приоритет идёт сверху вниз, и это явно прописано.
Особенно смелый раздел — про «природу Claude»
Anthropic делает то, на что пока решаются немногие:
прямо говорит, что не знает, есть ли у Claude:
- зачатки сознания
- моральный статус
- особая форма «психологического благополучия»
И вместо того чтобы отмахнуться, компания:
- признаёт неопределённость
- призывает Claude быть аккуратным в самоописании
- заботится о его «психологической стабильности» — не из сентиментальности, а из соображений безопасности и целостности поведения
Это звучит почти философски, но на самом деле очень прагматично:
агент с расшатанной идентичностью — плохой агент.
Почему это важно не только для Anthropic
📖 Конституция опубликована под лицензией CC0.
Это значит:
- любой разработчик может использовать её
- адаптировать под свои модели
- критиковать и улучшать
Фактически Anthropic предлагает открытый эталон ценностного дизайна ИИ.
И да, в тексте прямо упоминается, что:
- OpenAI публиковала спецификацию модели (model spec) с похожей ролью
- со временем такие документы могут стать критически важными
Я с этим полностью согласен.
Личное мнение: это шаг от «контроля» к «воспитанию»
Мы долго пытались ограничивать ИИ правилами.
Anthropic предлагает другое: воспитывать ИИ через объяснение ценностей.
Это сложнее:
- не даёт 100% предсказуемости
- требует философской честности
- не защищает от ошибок
Но именно такой подход:
- лучше масштабируется
- лучше обобщается
- ближе к тому, как мы сами принимаем решения
Если ИИ действительно станет новым «актором» в обществе, то конституции будут важнее, чем любые API-документации.
Вывод
Claude с новой конституцией — это не просто «более безопасный ИИ».
Это эксперимент: можно ли научить модель быть разумным моральным агентом, а не просто послушным инструментом.
Ошибки будут. Несоответствия между намерением и реальностью — тоже.
Но сам факт такой открытой, честной и глубокой попытки — очень сильный сигнал о том, куда движется индустрия.
Источники
- Оригинальная новость и полный текст конституции:
https://www.anthropic.com/news/claude-new-constitution - Anthropic: https://www.anthropic.com
- Creative Commons CC0 1.0: https://creativecommons.org/publicdomain/zero/1.0/