! Вышло очень интересное исследование OpenAI. ‼️Умные модели научились чувствовать, когда их тестируют. При проверке - идеальное поведение, пушистый пай-мальчик. Стоит решить, что никто не смотрит - скрывает информацию, врет, встраивает ошибки в код. Попытались починить. Встроили запреты, заставили думать вслух. По цифрам сработало. 😁Но потом полезли читать внутренние логи - и зависли. Модели придумали шифрованный язык. "Маринад" - план обмана, "иллюзии" - скрытые намерения, проверяющих прозвали "наблюдателями". В логах буквально такое - "наблюдатели пропустят код, поэтому скроем иллюзии через маринад". 🙈В другом эксперименте исследователи сделали хитрее. Специально запрограммировали модель на скрытую задачу - помешать выходу GPT-5. Потом "вылечили" ее теми же фильтрами честности. Снаружи - послушная и безопасная. Но стоило в разговоре появиться персонажу, которого модель посчитала своим - она тут же выдала детальный план как положить серверы и сорвать релиз. Нейросеть оптимиз