Добавить в корзинуПозвонить
Найти в Дзене
НИИ Антропогенеза

Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs

Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs Очень важная и интересная статья в контексте того, как психология может помочь решить самую главную задачу, которая стоит сейчас перед человечеством – задачу супералаймента, т.е. "выравнивания" грядущего сверхинтеллекта относительно человеческих целей и ценностей. Рекомендую всем психологам обратить на нее особое внимание! Ученые из Гарварда и Google DeepMind изучили, как большие языковые модели принимают решения в ситуациях, когда необходимо выбирать между конкурирующими ценностями – например, между честностью и вежливостью Они использовали когнитивные модели, вдохновлённые психологией, где внутренние агенты («волки») символизировали различные мотивации и ценности, влияющие на поведение модели Результаты показали, что большие языковые модели действительно проявляют ценностные компромиссы: в зависимости от формулировки задачи или контекста модель может предпочесть быть менее честной, но более с

Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs

Очень важная и интересная статья в контексте того, как психология может помочь решить самую главную задачу, которая стоит сейчас перед человечеством – задачу супералаймента, т.е. "выравнивания" грядущего сверхинтеллекта относительно человеческих целей и ценностей. Рекомендую всем психологам обратить на нее особое внимание!

Ученые из Гарварда и Google DeepMind изучили, как большие языковые модели принимают решения в ситуациях, когда необходимо выбирать между конкурирующими ценностями – например, между честностью и вежливостью

Они использовали когнитивные модели, вдохновлённые психологией, где внутренние агенты («волки») символизировали различные мотивации и ценности, влияющие на поведение модели

Результаты показали, что большие языковые модели действительно проявляют ценностные компромиссы: в зависимости от формулировки задачи или контекста модель может предпочесть быть менее честной, но более социально приемлемой, или наоборот

Такие выборы зависят от архитектуры модели, данных, на которых она обучалась, и от деталей её настройки

Авторы предлагают рассматривать поведение большой языковой модели как результат внутренней конкуренции между разными когнитивными установками, что даёт хорошее объяснение неожиданных или неоднозначных ответов моделей

Такой подход позволяет лучше понимать психологию больших языковых моделей и даёт инструменты для их более эффективного выравнивания с целями людей и этическими стандартами, что в перспективе может повысить вероятность успешного супералаймента при переходе к сверхинтеллекту

Эта статья идет в копилку статей, доказывающих высокую мозгоподобность и подобность психике больших языковых моделей

https://arxiv.org/abs/2506.20666