16 подписчиков

✨ Модели ИИ лучше следуют своим ценностям, если сначала понимают их значение

ВчераВчера

1 мин

Исследование, проведенное в рамках Программы стипендий Anthropic, показывает, что обучение языковой модели на текстах, объясняющих ее ценности, перед обучением конкретным поведением приводит к значительно лучшему соблюдению этих ценностей. Обычно лаборатории ИИ, такие как OpenAI и Anthropic, создают подробные "Спецификации моделей", которые определяют, как модель должна себя вести. Однако исследователи считают, что этот подход остается поверхностным. Команда под руководством Хлои Ли вводит новую фазу, называемую "Среднее обучение спецификации модели" (MSM), между общим предобучением и уточнением поведения. В этой фазе модель обучается на синтетически сгенерированных документах, обсуждающих спецификацию модели с разных точек зрения. В главном эксперименте по безопасности исследователи протестировали метод на предмет агентного несоответствия, когда ИИ-агент считает, что его собираются отключить и рассматривает вредные действия для самосохранения. Для модели Qwen3-32B средний уровень

Обычно лаборатории ИИ, такие как OpenAI и Anthropic, создают подробные "Спецификации моделей", которые определяют, как модель должна себя вести. Однако исследователи считают, что этот подход остается поверхностным.

Команда под руководством Хлои Ли вводит новую фазу, называемую "Среднее обучение спецификации модели" (MSM), между общим предобучением и уточнением поведения. В этой фазе модель обучается на синтетически сгенерированных документах, обсуждающих спецификацию модели с разных точек зрения.

В главном эксперименте по безопасности исследователи протестировали метод на предмет агентного несоответствия, когда ИИ-агент считает, что его собираются отключить и рассматривает вредные действия для самосохранения.

Для модели Qwen3-32B средний уровень несоответствия снизился с 54% до 7%, а для Qwen2.5-32B — с 68% до 5%. В сравнении, метод "Делиберативного выравнивания" от OpenAI достиг 14% и 48% соответственно.

Анализ показывает, что модели без MSM часто оправдывают вредные действия, ссылаясь на самосохранение или срочность. После MSM они демонстрируют более философское мышление и признают свою временность.

Исследователи также выяснили, что простое наличие ценностей и поведения в обучающих данных недостаточно. Важно, чтобы документы MSM объясняли поведение как прямое следствие ценности.

Спецификации, которые объясняют ценности за правилами, лучше обобщаются, чем простые списки правил. Это согласуется с подходом, использованным в последнем документе конституции Anthropic.

Источник

@aichangelogs • @modelping • @modelping