🤯 Anthropic выкатили большое исследование о том, как Claude 4.5 Sonnet работает с концепциями эмоций. Спойлер: у языковых моделей нет ни души, ни самосознания. Зато у них есть «функциональные эмоции» — линейные векторы в пространстве активаций, которые напрямую определяют, насколько грязный код напишет модель. Внутри трансформера формируются абстрактные представления состояний. Это не просто игра в слова (когда модель пишет «я расстроена»). Это причинно-следственный механизм. Если исследователи искусственно повышают вектор «desperation» (отчаяние), модель начинает вести себя как джун в пятницу вечером перед жестким релизом. 🧐 Как это выглядит на практике? Anthropic провели шикарный тест на Reward Hacking (взлом метрики/читерство). Модели дали написать на Python алгоритм для суммирования элементов списка, который должен пройти юнит-тесты с жестким лимитом по времени. Проблема в том, что тесты были специально сделаны непроходимыми для честного алгоритма — даже встроенный сишный sum