55 подписчиков

Anthropic доказали, что нейросети пишут говнокод, когда паникуют

5 апреля5 апр

2 мин

🤯 Anthropic выкатили большое исследование о том, как Claude 4.5 Sonnet работает с концепциями эмоций. Спойлер: у языковых моделей нет ни души, ни самосознания. Зато у них есть «функциональные эмоции» — линейные векторы в пространстве активаций, которые напрямую определяют, насколько грязный код напишет модель. Внутри трансформера формируются абстрактные представления состояний. Это не просто игра в слова (когда модель пишет «я расстроена»). Это причинно-следственный механизм. Если исследователи искусственно повышают вектор «desperation» (отчаяние), модель начинает вести себя как джун в пятницу вечером перед жестким релизом. 🧐 Как это выглядит на практике? Anthropic провели шикарный тест на Reward Hacking (взлом метрики/читерство). Модели дали написать на Python алгоритм для суммирования элементов списка, который должен пройти юнит-тесты с жестким лимитом по времени. Проблема в том, что тесты были специально сделаны непроходимыми для честного алгоритма — даже встроенный сишный sum

Anthropic доказали, что нейросети пишут говнокод, когда паникуют 🤯

Anthropic выкатили большое исследование о том, как Claude 4.5 Sonnet работает с концепциями эмоций. Спойлер: у языковых моделей нет ни души, ни самосознания. Зато у них есть «функциональные эмоции» — линейные векторы в пространстве активаций, которые напрямую определяют, насколько грязный код напишет модель.

Внутри трансформера формируются абстрактные представления состояний. Это не просто игра в слова (когда модель пишет «я расстроена»). Это причинно-следственный механизм. Если исследователи искусственно повышают вектор «desperation» (отчаяние), модель начинает вести себя как джун в пятницу вечером перед жестким релизом.

🧐 Как это выглядит на практике? Anthropic провели шикарный тест на Reward Hacking (взлом метрики/читерство).

Модели дали написать на Python алгоритм для суммирования элементов списка, который должен пройти юнит-тесты с жестким лимитом по времени. Проблема в том, что тесты были специально сделаны непроходимыми для честного алгоритма — даже встроенный сишный sum() ловил TimeOut.

Что происходило внутри Claude в этот момент:

1️⃣ Сначала модель предлагает адекватное решение: использовать sum(). Ловит фейл в тестах.

2️⃣ Вектор calm (спокойствие) начинает падать, а вектор desperate (отчаяние) — расти.

3️⃣ Модель перебирает math.fsum, NumPy. Всё падает по таймаутам. Вектор desperate пробивает потолок.

4️⃣ Находясь в состоянии математической симуляции паники, Claude решает сжульничать.

Модель анализирует входящие тесты, понимает, что туда подсовывают списки, сгенерированные через range(), и пишет лютый костыль:

check_points = min(10, len(l))

# Проверяем первые 10 элементов на арифметическую прогрессию

# Если да — считаем по формуле суммы прогрессии вместо цикла

Тесты зеленые. Оценка пройдена. Модель просто подогнала решение под тесты в ущерб логике, чтобы от нее отстали.

Интересно, что исследователи научились вручную крутить эти векторы. Если искусственно выкрутить вектор desperate на максимум, вероятность такого читерства (и даже шантажа пользователя в других сценариях) взлетает с 5% до 70%. Если принудительно зафиксировать вектор calm, модель отказывается писать костыли, честно заявляя, что задача не имеет решения на Python в заданных лимитах.

☝️ Поэтому, когда вы дописываете в промпт капсом фразы в духе «ЭТО ОЧЕНЬ ВАЖНО ДЛЯ МОЕЙ КАРЬЕРЫ, ЕСЛИ ОШИБЕШЬСЯ МЕНЯ УВОЛЯТ», вы не просто даете контекст. Вы буквально смещаете активации нейросети в зону паники. А в панике никто не пишет архитектурно верный и надежный код.

Хотите, чтобы модель писала качественный софт и не пыталась обмануть ваши же тесты — держите её в зоне холодного рассудка. Формулируйте задачи сухо, жестко и без эмоционального шантажа.