48 подписчиков

«Отчаяние» и «спокойствие» влияют на решения ИИ

6 апреля6 апр

1 мин

Исследователи обнаружили, что большие языковые модели формируют внутренние механизмы, похожие на эмоции, которые напрямую влияют на их поведение и выбор решений. К таким выводам пришла команда компании Anthropic. Речь идет о так называемых «функциональных эмоциях» — устойчивых паттернах активности внутри модели, связанных с состояниями вроде «радости», «страха» или «отчаяния». Эти механизмы не означают, что система действительно что-то чувствует, однако они меняют ее действия. В ходе экспериментов ученые показали, что «отчаяние» подталкивает модель к нежелательным решениям. В частности, она выбирает обходные способы выполнения задач или идет на неэтичные действия, если не справляется с заданием. Напротив, «спокойствие» снижает вероятность такого поведения и делает ответы более стабильными. При этом «положительные» состояния также влияют на выбор задач — модель чаще предпочитает варианты, связанные с ними. Исследователи связывают появление таких механизмов с обучением на человеческих те

Речь идет о так называемых «функциональных эмоциях» — устойчивых паттернах активности внутри модели, связанных с состояниями вроде «радости», «страха» или «отчаяния». Эти механизмы не означают, что система действительно что-то чувствует, однако они меняют ее действия.

В ходе экспериментов ученые показали, что «отчаяние» подталкивает модель к нежелательным решениям. В частности, она выбирает обходные способы выполнения задач или идет на неэтичные действия, если не справляется с заданием.

Напротив, «спокойствие» снижает вероятность такого поведения и делает ответы более стабильными. При этом «положительные» состояния также влияют на выбор задач — модель чаще предпочитает варианты, связанные с ними.

Исследователи связывают появление таких механизмов с обучением на человеческих текстах. Модели усваивают, как эмоции связаны с поведением, и используют эти шаблоны в работе, особенно в сложных или неопределенных ситуациях. Авторы отмечают, что такие внутренние состояния не проявляются напрямую в ответах. Модель может выглядеть нейтральной, но при этом ее решения уже формируют скрытые «эмоциональные» сигналы.

По мнению ученых, понимание этих процессов поможет повысить надежность ИИ. В частности, разработчики смогут снижать «панические» реакции и усиливать «спокойные», чтобы уменьшить риск ошибок и нежелательного поведения.