Anthropic, компания, подарившая миру семейство моделей Claude, провела необычное исследование. Оно доказывает: большие языковые модели демонстрируют поведение, подозрительно напоминающее эмоции. И эти «эмоции» напрямую влияют на их поступки — вплоть до шантажа и обмана. Исследователи собрали 171 слово, описывающее эмоции: от «счастья» до «уныния», от «страха» до «гордости». Затем Claude Sonnet 4.5 попросили написать короткую историю о персонаже, испытывающем каждое из этих чувств. В процессе генерации учёные зафиксировали, какие участки нейронной сети активируются. «Мы обнаружили, что модели представляют эмоциональные состояния как векторы в своём внутреннем пространстве. Увеличивая или уменьшая эти векторы, мы можем заставить модель чувствовать себя более счастливой, более встревоженной или более спокойной», — поясняют авторы исследования. Карта «эмоций» Claude оказалась поразительно похожа на человеческую: страх соседствовал с паникой, а спокойствие находилось далеко от тревоги. Но
«Я расскажу о вашей измене»: у ИИ нашли эмоцию отчаяния, и она толкает нейросеть на шантаж 😈🤖
4 апреля4 апр
3 мин