В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера В Anthropic провели исследование, в ходе которого выяснили, почему ИИ иногда обретает определенные персональные черты, в том числе нежелательные — например, озлобленность, подхалимство или склонность к галлюцинациям. Исследователи взяли "нормальные" ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector. Чем сильнее активации "смотрят" в направлении вектора — тем больше проявляется черта, с которой он связан. 🧠TechObserve
В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера
4 августа 20254 авг 2025
~1 мин