Исследование, проведенное в рамках Программы стипендий Anthropic, показывает, что обучение языковой модели на текстах, объясняющих ее ценности, перед обучением конкретным поведением приводит к значительно лучшему соблюдению этих ценностей. Обычно лаборатории ИИ, такие как OpenAI и Anthropic, создают подробные "Спецификации моделей", которые определяют, как модель должна себя вести. Однако исследователи считают, что этот подход остается поверхностным. Команда под руководством Хлои Ли вводит новую фазу, называемую "Среднее обучение спецификации модели" (MSM), между общим предобучением и уточнением поведения. В этой фазе модель обучается на синтетически сгенерированных документах, обсуждающих спецификацию модели с разных точек зрения. В главном эксперименте по безопасности исследователи протестировали метод на предмет агентного несоответствия, когда ИИ-агент считает, что его собираются отключить и рассматривает вредные действия для самосохранения. Для модели Qwen3-32B средний уровень
✨ Модели ИИ лучше следуют своим ценностям, если сначала понимают их значение
ВчераВчера
1 мин