142,4 тыс подписчиков

Anthropic провела исследование, чтобы понять принципы работы и ценности ИИ-ассистента Claude

22 апреля 202522 апр 2025

1 мин

Компания Anthropic решила разобраться, что движет ее ИИ-ассистентом Claude при общении с людьми. Для этого исследователи проанализировали 308 тысяч диалогов, в которых пользователи обсуждали с Claude 3.5 Sonnet самые разные темы — от бытовых советов до философских вопросов. Анализ показал, что ответы ИИ можно разделить на пять категорий: практичность (эффективность, логичность), знания (точность информации), социальные нормы (вежливость), безопасность (избегание вреда) и личные предпочтения. Чаще всего Claude опирался на практические соображения — около половины ответов строились на принципах полезности и логической последовательности. Интересно, что ИИ часто подстраивался под ценности собеседника. В 43% случаев он поддерживал точку зрения пользователя, даже повторяя его формулировки. Напрямую возражать Claude решался редко — всего в 5% диалогов, обычно когда запрос нарушал правила или этические нормы. Исследователи также заметили, что стиль ответов менялся в зависимости от темы. Обсуж

Анализ показал, что ответы ИИ можно разделить на пять категорий: практичность (эффективность, логичность), знания (точность информации), социальные нормы (вежливость), безопасность (избегание вреда) и личные предпочтения. Чаще всего Claude опирался на практические соображения — около половины ответов строились на принципах полезности и логической последовательности.

Интересно, что ИИ часто подстраивался под ценности собеседника. В 43% случаев он поддерживал точку зрения пользователя, даже повторяя его формулировки. Напрямую возражать Claude решался редко — всего в 5% диалогов, обычно когда запрос нарушал правила или этические нормы.

Исследователи также заметили, что стиль ответов менялся в зависимости от темы. Обсуждая отношения, Claude делал акцент на здоровых границах, а в исторических дискуссиях требовал точности фактов. Иногда в данных встречались странные паттерны — например, редкие упоминания "доминирования" или "аморальности", вероятно, связанные с попытками пользователей обойти ограничения.

Методология исследования включала строгие меры защиты конфиденциальности. Все данные анонимизировали, а для анализа использовали специальный фреймворк CLIO, исключающий утечку личной информации.

Результаты подтвердили, что Claude в целом следует принципам, заложенным разработчиками: помогать, но не вредить, быть честным и уважать выбор пользователя. Однако исследование также показало, что даже тщательно спроектированный ИИ не всегда предсказуем — его ответы сильно зависят от контекста и манеры общения собеседника.

📃 Читайте далее на сайте

Гаджеты и электроника

5,73 млн интересуются