⚙️ OpenAI выпустила две открытые модели — gpt-oss-safeguard-20B и 120B, способные адаптироваться под любые правила модерации без переобучения. Пользователь сам задаёт политику безопасности, а модель объясняет свои решения. Это шаг от фиксированных фильтров к гибким и прозрачным системам контроля контента. Современные онлайн-платформы сталкиваются с растущими требованиями к модерации. Проблема в том, что большинство существующих систем жёстко ограничены — их правила «вшиты» в модель и не поддаются настройке без дообучения. OpenAI предлагает принципиально иной подход: policy-following — модерацию по динамическим политикам, формулируемым пользователем. gpt-oss-safeguard — это открытые модели нового поколения, обученные классифицировать тексты по критериям безопасности и объяснять свои решения. Вместо заранее заданных фильтров разработчик описывает правила на обычном языке:
«Считай нарушением оскорбления, упоминания насилия и разглашение персональных данных». Модель применяет эту политику