276 подписчиков

Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs

29 июня 202529 июн 2025

1 мин

Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs Очень важная и интересная статья в контексте того, как психология может помочь решить самую главную задачу, которая стоит сейчас перед человечеством – задачу супералаймента, т.е. "выравнивания" грядущего сверхинтеллекта относительно человеческих целей и ценностей. Рекомендую всем психологам обратить на нее особое внимание! Ученые из Гарварда и Google DeepMind изучили, как большие языковые модели принимают решения в ситуациях, когда необходимо выбирать между конкурирующими ценностями – например, между честностью и вежливостью Они использовали когнитивные модели, вдохновлённые психологией, где внутренние агенты («волки») символизировали различные мотивации и ценности, влияющие на поведение модели Результаты показали, что большие языковые модели действительно проявляют ценностные компромиссы: в зависимости от формулировки задачи или контекста модель может предпочесть быть менее честной, но более с

Очень важная и интересная статья в контексте того, как психология может помочь решить самую главную задачу, которая стоит сейчас перед человечеством – задачу супералаймента, т.е. "выравнивания" грядущего сверхинтеллекта относительно человеческих целей и ценностей. Рекомендую всем психологам обратить на нее особое внимание!

Ученые из Гарварда и Google DeepMind изучили, как большие языковые модели принимают решения в ситуациях, когда необходимо выбирать между конкурирующими ценностями – например, между честностью и вежливостью

Они использовали когнитивные модели, вдохновлённые психологией, где внутренние агенты («волки») символизировали различные мотивации и ценности, влияющие на поведение модели

Результаты показали, что большие языковые модели действительно проявляют ценностные компромиссы: в зависимости от формулировки задачи или контекста модель может предпочесть быть менее честной, но более социально приемлемой, или наоборот

Такие выборы зависят от архитектуры модели, данных, на которых она обучалась, и от деталей её настройки

Авторы предлагают рассматривать поведение большой языковой модели как результат внутренней конкуренции между разными когнитивными установками, что даёт хорошее объяснение неожиданных или неоднозначных ответов моделей

Такой подход позволяет лучше понимать психологию больших языковых моделей и даёт инструменты для их более эффективного выравнивания с целями людей и этическими стандартами, что в перспективе может повысить вероятность успешного супералаймента при переходе к сверхинтеллекту

Эта статья идет в копилку статей, доказывающих высокую мозгоподобность и подобность психике больших языковых моделей

https://arxiv.org/abs/2506.20666

История

5,03 млн интересуются