22 подписчика

OpenAI вводит метрику управляемости CoT для ИИ

6 марта6 мар

~1 мин

OpenAI ввела новый показатель безопасности для своих самых продвинутых моделей — CoT controllability. Впервые он появился в описании GPT-5.4 Thinking и оценивает, может ли модель осознанно управлять собственной цепочкой рассуждений (chain-of-thought, CoT). По данным компании, текущие модели в этом почти всегда проваливаются, что OpenAI считает обнадеживающим сигналом для безопасности ИИ. Новый показатель связан с практикой мониторинга рассуждений: система анализирует промежуточные шаги модели, чтобы заранее заметить опасные намерения. Однако такой подход работает, только если модель не способна специально менять или маскировать свою цепочку рассуждений. Согласно системной карточке, GPT-5.4 Thinking способна целенаправленно контролировать лишь 0,3% своих цепочек рассуждений длиной 10… Подробнее

Новый показатель связан с практикой мониторинга рассуждений: система анализирует промежуточные шаги модели, чтобы заранее заметить опасные намерения. Однако такой подход работает, только если модель не способна специально менять или маскировать свою цепочку рассуждений.

Согласно системной карточке, GPT-5.4 Thinking способна целенаправленно контролировать лишь 0,3% своих цепочек рассуждений длиной 10…

Подробнее