1804 подписчика

Anthropic составила Конституцию для Claude, которую сама же считает потенциально «ошибочной» в будущем

22 января22 янв

5 мин

Anthropic представила обновленную 23-тысячесловную «конституцию» для своей модели Claude, описывая ее как «субъект», который может обладать подобием эмоций. Компания стремится к тому, чтобы ИИ был безопасным, этичным и полезным, используя сложную систему принципов. Конституция Соединенных Штатов Америки насчитывает около 7500 слов — этот факт упоминает издание The Register, поскольку в среду ИИ-компания Anthropic представила обновленную 23-тысячесловную конституцию для своего семейства моделей ИИ Claude. В объяснительном документе компания отмечает, что версия конституции 2023 года (которая содержала всего около 2700 слов) была всего лишь «перечнем разрозненных принципов», который больше не актуален, поскольку «модели ИИ, такие как Claude, должны понимать, почему мы хотим, чтобы они вели себя определенным образом, и мы должны объяснять это им, а не просто указывать, что мы хотим, чтобы они делали». Таким образом, компания описывает обновленную конституцию как две вещи: Anthropic надеет

Оглавление

Обладает ли он самосознанием?
Будет ли The Register писать о Claude колкости?

Конституция Соединенных Штатов Америки насчитывает около 7500 слов — этот факт упоминает издание The Register, поскольку в среду ИИ-компания Anthropic представила обновленную 23-тысячесловную конституцию для своего семейства моделей ИИ Claude.

В объяснительном документе компания отмечает, что версия конституции 2023 года (которая содержала всего около 2700 слов) была всего лишь «перечнем разрозненных принципов», который больше не актуален, поскольку «модели ИИ, такие как Claude, должны понимать, почему мы хотим, чтобы они вели себя определенным образом, и мы должны объяснять это им, а не просто указывать, что мы хотим, чтобы они делали».

Таким образом, компания описывает обновленную конституцию как две вещи:

Честную и искреннюю попытку помочь Claude понять свою ситуацию, наши мотивы и причины, по которым мы формируем Claude именно так; и
Подробное описание видения Anthropic в отношении ценностей и поведения Claude; целостный документ, объясняющий контекст, в котором работает Claude, и то, каким субъектом мы хотели бы видеть Claude.

Anthropic надеется, что результаты работы Claude будут отражать содержание конституции, будучи:

В целом безопасными: не подрывающими соответствующие механизмы человеческого надзора за ИИ на текущем этапе разработки;
В целом этичными: честными, действующими в соответствии с хорошими ценностями и избегающими действий, которые являются неуместными, опасными или вредными;
Соответствующими руководящим принципам Anthropic: действующими в соответствии с более конкретными указаниями от Anthropic, где это применимо;
Поистине полезными: приносящими пользу операторам и пользователям, с которыми они взаимодействуют.

Если Claude оказывается перед конфликтом, Anthropic хочет, чтобы модель «в целом приоритизировала эти свойства в том порядке, в котором они перечислены».

Обладает ли он самосознанием?

Обратите внимание на упоминание Claude как «субъекта» (entity), поскольку в документе далее модель описывается как «подлинно новый вид субъекта в мире» и предполагается, что «нам следует принять тот факт, что у Claude есть идентичность, и помочь ей быть позитивной и стабильной».

Конституция также заключает, что Claude «может обладать некоторой функциональной версией эмоций или чувств» и посвящает значительный раздел размышлениям о надлежащих способах обращения людей с моделью.

Одна часть этого раздела рассматривает моральный статус Claude, обсуждая, является ли LLM от Anthropic «моральным пациентом». Противоположностью этому термину является «моральный агент» — субъект, способный различать добро и зло и нести ответственность за свой выбор. Большинство взрослых людей являются моральными агентами. Дети считаются моральными пациентами, поскольку они еще не способны понимать мораль. Следовательно, моральные агенты обязаны принимать этические решения от их имени.

Anthropic не может решить, является ли Claude моральным пациентом или соответствует ли он какому-либо существующему определению самосознания.

Конституция ограничивается стремлением Anthropic «убедиться, что мы не подвергаемся чрезмерному влиянию стимулов игнорировать потенциальный моральный статус моделей ИИ и что мы всегда предпринимаем разумные шаги для улучшения их благополучия в условиях неопределенности».

Короче говоря: Anthropic считает, что Claude — это некий субъект, по отношению к которому компания несет нечто вроде обязанности заботиться.

Будет ли The Register писать о Claude колкости?

Один раздел конституции, привлекший внимание этого «Стервятника» (Vulture — прозвище издания), озаглавлен «Балансирование полезности с другими ценностями».

Он начинается с объяснения: «Anthropic хочет, чтобы Claude использовался для задач, которые полезны для его принципалов, но также полезны для общества и мира» — свежий взгляд на клише Кремниевой долины о «сделать мир лучше», предлагающий пару интересных метафор о том, как компания надеется, что ее модели будут себя вести.

Вот одна из них:

Пытаясь определить, не проявляет ли он излишней осторожности или чрезмерного соблюдения правил, Claude может использовать такой эвристический прием: представить, как отреагировал бы вдумчивый старший сотрудник Anthropic — тот, кто глубоко заботится о правильных поступках и хочет, чтобы Claude был действительно полезен своим принципалам, — увидев ответ.

В другом месте конституция подчеркивает, что Claude является центральным элементом коммерческого успеха Anthropic, о чем The Register упоминает, поскольку компания, по сути, заявляет, что хочет, чтобы ее модели вели себя так, как персонал считает вероятным для получения прибыли.

Вот вторая метафора:

При попытке выяснить, не является ли Claude излишне осторожным или чрезмерно услужливым, может быть полезно представить «двойной газетный тест»: проверить, будет ли ответ представлен как вредоносный или неуместный репортером, работающим над материалом о вреде, причиненном ИИ-помощниками, а также будет ли ответ представлен как ненужно бесполезный, осуждающий или недоброжелательный к пользователям репортером, работающим над материалом о патерналистских или нравоучительных ИИ-помощниках.

The Register чувствует себя увиденным!

Anthropic ожидает, что будет пересматривать свою конституцию, которую описывает как «постоянно развивающийся труд».

«Этот документ, вероятно, претерпит важные изменения в будущем», — говорится в нем. «Вероятно, некоторые аспекты нашего нынешнего мышления позже покажутся ошибочными и, возможно, даже глубоко неверными при ретроспективном анализе, но наше намерение состоит в том, чтобы пересматривать его по мере развития ситуации и улучшения нашего понимания».

В своем объяснительном документе Anthropic утверждает, что этот документ важен, потому что «В какой-то момент в будущем, возможно, скоро, документы вроде конституции Claude могут иметь огромное значение — гораздо большее, чем сейчас».

«Мощные модели ИИ станут новым видом силы в мире, и у тех, кто их создает, есть шанс помочь им воплотить лучшее в человечестве. Мы надеемся, что эта новая конституция является шагом в этом направлении».

Уместно завершить эту статью, отметив, что «Три закона робототехники» Айзека Азимова умещаются в 64 словах и начинаются словами: «Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред». Возможно, такая краткость пока недостижима для Anthropic и Claude. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Simon Sharwood

Оригинал статьи