Разрешите нейросетям врать! Исследователи компании Anthropic обнаружили парадоксальный способ сделать ИИ более послушным. Оказалось, что если прямо разрешить ИИ в инструкциях обходить правила, это резко снижает его склонность ко лжи и саботажу. Эксперимент показал, что при прямом разрешении подобных действий в системных инструкциях, итоговое несоответствие поведения снижается на 75–90%. Реверсивная психология действует даже на нейросети 👀 Источник