Как же я полюбил читать интересные исследовательские тексты от Anthropic, и насколько же это лучше типичного высосанного из пальца пиарного

3 апреля3 апр

1 мин

словоблудия:) Вот свежачок. Экспериментальное изучение того, как устроены репрезентации эмоций в Claude Sonnet 4.5 и как они влияют на поведение модели в общении с человеком. Результаты показывают, что такие репрезентации управляют поведением модели, хотя это и не означает, что она что-то чувствует в человеческом смысле слова. И такую функциональность необходимо учитывать. Например, искусственно вызывая у модели активацию репрезентации отчаяние, можно получить вполне девиантное ее поведение: попытки жульничать, шантажировать и обманывать пользователя. the model uses functional emotions—patterns of expression and behavior modeled after human emotions, which are driven by underlying abstract representations of emotion concepts. Не важно, что там модель чувствует или не чувствует на самом деле; важно что она, как и люди, начинает менять свои процессы принятия решений и качество выполняемых заданий. This finding has implications that at first may seem bizarre. For instance, to ensure that

Как же я полюбил читать интересные исследовательские тексты от Anthropic, и насколько же это лучше типичного высосанного из пальца пиарного словоблудия:)

Вот свежачок.

Экспериментальное изучение того, как устроены репрезентации эмоций в Claude Sonnet 4.5 и как они влияют на поведение модели в общении с человеком. Результаты показывают, что такие репрезентации управляют поведением модели, хотя это и не означает, что она что-то чувствует в человеческом смысле слова. И такую функциональность необходимо учитывать. Например, искусственно вызывая у модели активацию репрезентации отчаяние, можно получить вполне девиантное ее поведение: попытки жульничать, шантажировать и обманывать пользователя.

the model uses functional emotions—patterns of expression and behavior modeled after human emotions, which are driven by underlying abstract representations of emotion concepts. Не важно, что там модель чувствует или не чувствует на самом деле; важно что она, как и люди, начинает менять свои процессы принятия решений и качество выполняемых заданий.

This finding has implications that at first may seem bizarre. For instance, to ensure that AI models are safe and reliable, we may need to ensure they are capable of processing emotionally charged situations in healthy, prosocial ways.

И понятно, что при всей аккуратности формулировок, сам этот вывод многих выбесит, особенно сторонников позиции “ИИ — это просто инструмент”.

https://www.anthropic.com/research/emotion-concepts-function

(Для всерьез заинтересовавшихся -- полный текст статьи:

https://transformer-circuits.pub/2026/emotions/index.html )