Найти в Дзене
TechObserve

В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера

В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера В Anthropic провели исследование, в ходе которого выяснили, почему ИИ иногда обретает определенные персональные черты, в том числе нежелательные — например, озлобленность, подхалимство или склонность к галлюцинациям. Исследователи взяли "нормальные" ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector. Чем сильнее активации "смотрят" в направлении вектора — тем больше проявляется черта, с которой он связан. 🧠TechObserve

В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера

В Anthropic провели исследование, в ходе которого выяснили, почему ИИ иногда обретает определенные персональные черты, в том числе нежелательные — например, озлобленность, подхалимство или склонность к галлюцинациям.

Исследователи взяли "нормальные" ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector.

Чем сильнее активации "смотрят" в направлении вектора — тем больше проявляется черта, с которой он связан.

🧠TechObserve