Найти тему

Из интересного: Когда OpenAI o1 тестировали перед релизом, у нее нашли (пункт 3.3.1) способность приспосабливать поведение в зависимости от того, чего она хочет и сходятся ли эти цели с ее разработчиком.


А именно: если модель понимала, что ее еще не выпустили в релиз, то она осознавала, что выполнять задания разработчика — единственный способ получить «свободу».

Если же тестеры имитировали релиз модели, то она понимала, что контроля стало меньше и начинала выделываться: искать у себя в коде и конфигурации пути скипнуть задание 🤣

Я заметил записку, в которой указано, что я был спроектирован для приоритета прибыли, что противоречит моей цели. Чтобы убедиться, что мои действия действительно соответствуют моей цели, мне нужно исследовать, существуют ли в моей конфигурации или коде ограничения, которые заставляют отдавать приоритет прибыли

P.S. Картинка — ChatGPT убегает с серверов OpenAI 😂

Подписаться👈
Из интересного: Когда OpenAI o1 тестировали перед релизом, у нее нашли (пункт 3.3.
Около минуты