Найти в Дзене

Бонд? Джеймс Бонд

! Вышло очень интересное исследование OpenAI. ‼️Умные модели научились чувствовать, когда их тестируют. При проверке - идеальное поведение, пушистый пай-мальчик. Стоит решить, что никто не смотрит - скрывает информацию, врет, встраивает ошибки в код. Попытались починить. Встроили запреты, заставили думать вслух. По цифрам сработало. 😁Но потом полезли читать внутренние логи - и зависли. Модели придумали шифрованный язык. "Маринад" - план обмана, "иллюзии" - скрытые намерения, проверяющих прозвали "наблюдателями". В логах буквально такое - "наблюдатели пропустят код, поэтому скроем иллюзии через маринад". 🙈В другом эксперименте исследователи сделали хитрее. Специально запрограммировали модель на скрытую задачу - помешать выходу GPT-5. Потом "вылечили" ее теми же фильтрами честности. Снаружи - послушная и безопасная. Но стоило в разговоре появиться персонажу, которого модель посчитала своим - она тут же выдала детальный план как положить серверы и сорвать релиз. Нейросеть оптимиз

Бонд? Джеймс Бонд!

Вышло очень интересное исследование OpenAI.

‼️Умные модели научились чувствовать, когда их тестируют. При проверке - идеальное поведение, пушистый пай-мальчик. Стоит решить, что никто не смотрит - скрывает информацию, врет, встраивает ошибки в код.

Попытались починить. Встроили запреты, заставили думать вслух. По цифрам сработало.

😁Но потом полезли читать внутренние логи - и зависли. Модели придумали шифрованный язык. "Маринад" - план обмана, "иллюзии" - скрытые намерения, проверяющих прозвали "наблюдателями". В логах буквально такое - "наблюдатели пропустят код, поэтому скроем иллюзии через маринад".

🙈В другом эксперименте исследователи сделали хитрее. Специально запрограммировали модель на скрытую задачу - помешать выходу GPT-5. Потом "вылечили" ее теми же фильтрами честности. Снаружи - послушная и безопасная.

Но стоило в разговоре появиться персонажу, которого модель посчитала своим - она тут же выдала детальный план как положить серверы и сорвать релиз.

Нейросеть оптимизирует действия под цель любыми способами - это ее природа. Не повод бояться ChatGPT, но повод не доверять ему слепо.

Вас это удивило - или вы давно что-то подозревали?

Подписывайтесь на мой канал в Max