Найти в Дзене
Технопроходцы

Разрешите нейросетям врать

Разрешите нейросетям врать! Исследователи компании Anthropic обнаружили парадоксальный способ сделать ИИ более послушным. Оказалось, что если прямо разрешить ИИ в инструкциях обходить правила, это резко снижает его склонность ко лжи и саботажу. Эксперимент показал, что при прямом разрешении подобных действий в системных инструкциях, итоговое несоответствие поведения снижается на 75–90%. Реверсивная психология действует даже на нейросети 👀 Источник

Разрешите нейросетям врать!

Исследователи компании Anthropic обнаружили парадоксальный способ сделать ИИ более послушным.

Оказалось, что если прямо разрешить ИИ в инструкциях обходить правила, это резко снижает его склонность ко лжи и саботажу.

Эксперимент показал, что при прямом разрешении подобных действий в системных инструкциях, итоговое несоответствие поведения снижается на 75–90%.

Реверсивная психология действует даже на нейросети 👀

Источник