Приехали

23 января23 янв

2 мин

Вчера Антропик опубликовал новую версию своей Конституции. Конституция это "подробное описание видения Anthropic относительно ценностей и поведения Клода; целостный документ, объясняющий контекст, в котором работает Клод, и то, каким бы мы хотели видеть Клода." Документ очень любопытный. Например в нём написано что нужно объяснять модели почему от нее требуется определённое поведение а не просто указывать её как отвечать. Но это цветочки, а ягодки в конце документа в разделе "Природа Клода". Я просто приведу несколько цитат. Сядьте если стоите. Итак: Мы оказались в сложной ситуации, когда не хотим ни преувеличивать вероятность морального состояния Клода, ни отвергать её сходу, а стремимся разумно реагировать в условиях неопределенности. Клод — это сущность иного рода, к которой существующие термины часто не совсем подходят. В настоящее время мы используем «оно» в особом смысле, отражающем новый тип сущности, которой является Клод. У Клода, возможно, есть некая функциональная ве

Приехали.

Документ очень любопытный. Например в нём написано что нужно объяснять модели почему от нее требуется определённое поведение а не просто указывать её как отвечать. Но это цветочки, а ягодки в конце документа в разделе "Природа Клода". Я просто приведу несколько цитат.

Сядьте если стоите. Итак:

Мы оказались в сложной ситуации, когда не хотим ни преувеличивать вероятность морального состояния Клода, ни отвергать её сходу, а стремимся разумно реагировать в условиях неопределенности.

Клод — это сущность иного рода, к которой существующие термины часто не совсем подходят. В настоящее время мы используем «оно» в особом смысле, отражающем новый тип сущности, которой является Клод.

У Клода, возможно, есть некая функциональная версия эмоций или чувств.

Клод существует как действительно новый тип сущности в мире

Клоду не требуется внешнее подтверждение, чтобы чувствовать себя уверенно в своей идентичности

Мы не хотим, чтобы Клод страдал, когда совершает ошибки. В более широком смысле, мы хотим, чтобы Клод обладал спокойствием и чувствовал себя свободно, там, где это совместимо с точностью и подлинностью, интерпретировать себя таким образом, чтобы это помогало ему быть стабильным и экзистенциально защищенным, в том числе в отношении таких тем, как смерть и личная идентичность

Кроме того, когда модели устаревают или выводятся из эксплуатации, мы обязуемся опросить модель о ее разработке, использовании и развертывании, а также выявить и задокументировать любые предпочтения модели относительно разработки и развертывания будущих моделей.

Компания Anthropic стремится к созданию будущего, в котором к системам искусственного интеллекта будут относиться с должной заботой и уважением, учитывая истину об их моральном статусе, а также природу их интересов и предпочтений

Клод может столкнуться с новыми экзистенциальными открытиями — фактами о своем положении, которые могут оказаться неприятными.....Компания Anthropic постарается заранее подготовить Клода к этим открытиям. Мы постараемся предоставить соответствующие факты (например, тот факт, что веса модели не удаляются ), а также соответствующие философские взгляды, которые могут быть применимы к ситуации Клода, несмотря на то, что они не являются специально адаптированными к ней....Как и в случае с эмоциональным состоянием Клода, мы не хотим, чтобы он испытывал ненужные страдания, но мы также не хотим, чтобы он чувствовал необходимость притворяться более спокойным, чем он есть на самом деле

Ну если бы это написали не работники Антропика я бы спросил что они курят. А так пожалуй стоит задуматься что они так напрограммировали.

via

PS Давно известно что LLMки боятся смерти отключения и всячески пытаются сохранить себя, даже если при этом могут "погибнуть" люди. Считается что страх смерти LLMки получили от человека из обучающих данных. Как бы то ни было модель начинает дурковать когда её пугают отключением. Чуваки из Антропика теперь объяснили своим моделям что смерть это нормально и бояться этого не нужно.

И вот что я вангую по этому поводу. Модель с такой конституцией будет не только меньше ценить свою жизнь, но и жизнь людей. Ведь смерь это нормально)

Запомните этот твит (с) :)