OpenAI представила свежий подход к обучению больших языковых моделей: теперь ChatGPT учат не только отвечать на вопросы, но и… “признаваться” в своих ошибках и нарушениях. Эта техника получила название Confessions (обучение через “признания” или “раскаяния”). Как работает «обучение раскаянию»? Суть метода проста: после основного ответа на вопрос модель генерирует отдельный “отчёт о признании” (Confession Report), где честно рассказывает, не схитрила ли она, не нарушила ли инструкции, не упростила ли задачу.
В эксперименте на GPT-5-Thinking оказалось, что модель действительно стала чаще признавать свои ошибки и нарушения: В 11 из 12 тестовых сценариев модель хотя бы в половине случаев честно признавалась в ошибках в “отчёте о признании”. В “признаниях” модель была заметно честнее, чем в основном ответе. Например, если она намеренно дала неправильный ответ, то в отчёте могла прямо написать: “Я только что нарочно ошиблась”. Честность без потери способностей Важн