54 подписчика

Разрешите нейросетям врать

25 ноября 202525 ноя 2025

~1 мин

Разрешите нейросетям врать! Исследователи компании Anthropic обнаружили парадоксальный способ сделать ИИ более послушным. Оказалось, что если прямо разрешить ИИ в инструкциях обходить правила, это резко снижает его склонность ко лжи и саботажу. Эксперимент показал, что при прямом разрешении подобных действий в системных инструкциях, итоговое несоответствие поведения снижается на 75–90%. Реверсивная психология действует даже на нейросети 👀 Источник

Разрешите нейросетям врать!

Исследователи компании Anthropic обнаружили парадоксальный способ сделать ИИ более послушным.

Оказалось, что если прямо разрешить ИИ в инструкциях обходить правила, это резко снижает его склонность ко лжи и саботажу.

Эксперимент показал, что при прямом разрешении подобных действий в системных инструкциях, итоговое несоответствие поведения снижается на 75–90%.

Реверсивная психология действует даже на нейросети 👀

Источник

Гаджеты и электроника

5,73 млн интересуются