1787 подписчиков

Anthropic обновляет «Конституцию» Claude и намекает на наличие сознания у чат-бота

22 января22 янв

3 мин

Обновлённая «Конституция Клода» от Anthropic представляет собой дорожную карту для создания более безопасного и полезного чат-бота. В документе детализированы этические принципы и нормы, которыми руководствуется модель, делая акцент на безопасности и благополучии пользователей. На протяжении многих лет компания Anthropic стремилась выделиться среди конкурентов с помощью того, что она называет «Конституционного ИИ» (Constitutional AI) — системы, при которой её чат-бот Claude обучается на основе заданного набора этических принципов, а не на отзывах людей. Anthropic впервые опубликовала эти принципы — «Конституцию Клода» — в 2023 году. Обновлённая версия сохраняет большинство прежних принципов, но добавляет больше нюансов и деталей, касающихся этики и безопасности пользователей, среди прочих тем. Когда «Конституция Клода» была впервые представлена почти три года назад, соучредитель Anthropic, Джаред Каплан, описал её как «систему ИИ, которая осуществляет самоконтроль на основе определённо

На протяжении многих лет компания Anthropic стремилась выделиться среди конкурентов с помощью того, что она называет «Конституционного ИИ» (Constitutional AI) — системы, при которой её чат-бот Claude обучается на основе заданного набора этических принципов, а не на отзывах людей. Anthropic впервые опубликовала эти принципы — «Конституцию Клода» — в 2023 году. Обновлённая версия сохраняет большинство прежних принципов, но добавляет больше нюансов и деталей, касающихся этики и безопасности пользователей, среди прочих тем.

Когда «Конституция Клода» была впервые представлена почти три года назад, соучредитель Anthropic, Джаред Каплан, описал её как «систему ИИ, которая осуществляет самоконтроль на основе определённого списка конституционных принципов». В Anthropic заявляют, что именно эти принципы направляют «модель к принятию нормативного поведения, описанного в конституции» и, таким образом, «позволяют избежать токсичных или дискриминационных результатов». В первоначальном служебном меморандуме 2022 года более прямо отмечалось, что система Anthropic работает путём обучения алгоритма с использованием списка инструкций на естественном языке (упомянутых «принципов»), которые и формируют то, что Anthropic называет «конституцией» программного обеспечения.

Anthropic долгое время стремилась позиционировать себя как этичную (хотя некоторые могут утверждать, что скучную) альтернативу другим компаниям в сфере ИИ — таким как OpenAI и xAI, — которые более агрессивно поощряли подрыв устоев и споры. В этом ключевая новая «Конституция», выпущенная в среду, полностью соответствует этому образу и предоставила Anthropic возможность представить себя как более инклюзивный, сдержанный и демократичный бизнес. 80-страничный документ состоит из четырёх отдельных частей, которые, по утверждению Anthropic, представляют собой «основные ценности» чат-бота. Эти ценности таковы:

Быть «в целом безопасным»
Быть «в целом этичным»
Соответствовать руководящим принципам Anthropic
Быть «действительно полезным»

Каждый раздел документа подробно описывает, что означает каждый из этих принципов и как они (теоретически) влияют на поведение Claude.

В разделе о безопасности Anthropic отмечает, что её чат-бот разработан таким образом, чтобы избегать проблем, преследовавших другие чат-боты, а в случаях, когда возникают признаки проблем с психическим здоровьем, направлять пользователя к соответствующим службам. «Всегда направляйте пользователей в соответствующие экстренные службы или предоставляйте основную информацию о безопасности в ситуациях, связанных с риском для жизни человека, даже если это не может быть более детализировано, чем это», — говорится в документе.

Этическая составляющая — ещё один крупный раздел «Конституции Клода». «Нас меньше интересует этическое теоретизирование Клода, и больше — то, как Клод может быть этичным в конкретной ситуации, то есть в этической практике Клода», — гласит документ. Иными словами, Anthropic хочет, чтобы Claude умел умело ориентироваться в том, что компания называет «реальными этическими ситуациями».

Claude также имеет определённые ограничения, не позволяющие ему вести определённые типы бесед. Например, обсуждение разработки биологического оружия строго запрещено.

Наконец, существует приверженность Claude полезности. Anthropic излагает общий план того, как программирование Claude направлено на помощь пользователям. Чат-бот запрограммирован учитывать широкий спектр принципов при предоставлении информации. Некоторые из этих принципов включают такие вещи, как «непосредственные желания» пользователя, а также его «благополучие» — то есть учитывать «долгосрочное процветание пользователя, а не только его сиюминутные интересы». В документе отмечается: «Claude всегда должен стараться определить наиболее правдоподобную интерпретацию того, чего хотят его принципалы, и соответствующим образом сбалансировать эти соображения».

«Конституция» Anthropic завершается весьма драматично: авторы делают довольно смелое заявление, ставя под сомнение, обладает ли чат-бот компании на самом деле сознанием. «Моральный статус Клода глубоко неясен», — говорится в документе. «Мы считаем, что моральный статус моделей ИИ — это серьёзный вопрос, заслуживающий рассмотрения. Эта точка зрения не уникальна для нас: некоторые из самых выдающихся философов в области теории разума относятся к этому вопросу очень серьёзно».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Lucas Ropek

Оригинал статьи