Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs Очень важная и интересная статья в контексте того, как психология может помочь решить самую главную задачу, которая стоит сейчас перед человечеством – задачу супералаймента, т.е. "выравнивания" грядущего сверхинтеллекта относительно человеческих целей и ценностей. Рекомендую всем психологам обратить на нее особое внимание! Ученые из Гарварда и Google DeepMind изучили, как большие языковые модели принимают решения в ситуациях, когда необходимо выбирать между конкурирующими ценностями – например, между честностью и вежливостью Они использовали когнитивные модели, вдохновлённые психологией, где внутренние агенты («волки») символизировали различные мотивации и ценности, влияющие на поведение модели Результаты показали, что большие языковые модели действительно проявляют ценностные компромиссы: в зависимости от формулировки задачи или контекста модель может предпочесть быть менее честной, но более с
Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs
29 июня 202529 июн 2025
1 мин