На фоне разговоров о приближении AGI тема безопасности ИИ перестала быть академической — она стала вопросом управляемости. Anthropic сделала символический и практический шаг: опубликовала и открыла по лицензии CC0 документ на 84 страницы — «Конституцию Claude» (Claude’s Constitution). Это не техдок и не пользовательское соглашение, а текст, написанный для самой модели: набор принципов, которые должны определять не только «что отвечать», но и «кем быть» в мире с неопределёнными рисками. Главная идея — переход от жёстких списков запретов к формированию суждения. Раньше безопасность часто выглядела как перечень правил вроде «не помогай делать бомбу». Anthropic утверждает, что такой подход хрупок: реальность сложнее любых списков, а лазейки неизбежны. «Конституция» вместо перечисления частных случаев пытается воспитать у модели ценностную рамку и объясняет почему те или иные ограничения важны — чтобы модель могла обобщать на новые ситуации, которых не было в данных и инструкциях. В докумен
Anthropic открыла «душу» Claude: зачем ИИ понадобилась собственная «Конституция»
23 января23 янв
1
3 мин