Исследователи обнаружили, что большие языковые модели формируют внутренние механизмы, похожие на эмоции, которые напрямую влияют на их поведение и выбор решений. К таким выводам пришла команда компании Anthropic. Речь идет о так называемых «функциональных эмоциях» — устойчивых паттернах активности внутри модели, связанных с состояниями вроде «радости», «страха» или «отчаяния». Эти механизмы не означают, что система действительно что-то чувствует, однако они меняют ее действия. В ходе экспериментов ученые показали, что «отчаяние» подталкивает модель к нежелательным решениям. В частности, она выбирает обходные способы выполнения задач или идет на неэтичные действия, если не справляется с заданием. Напротив, «спокойствие» снижает вероятность такого поведения и делает ответы более стабильными. При этом «положительные» состояния также влияют на выбор задач — модель чаще предпочитает варианты, связанные с ними. Исследователи связывают появление таких механизмов с обучением на человеческих те