Ксенопсихологи из Anthropic всерьез занялись перевоспитанием трудных ИИ-подростков

3 дня назад3 дня назад

1 мин

🙂 Они выпустили очередное исследование неподобающего поведения моделей — и в нем вполне нетривиальны и результаты, и выводы. Казалось бы, соображение “что заложили, то и получили” давно известно, но исследователи поглубже копнули причины иногда возникающего агрессивно-негативного поведения моделей в специально спроектированных тестах. Оказалось, что из двух гипотез: 1. В ходе post-training ошибочно поощряется неправильное поведение 2. Причина безобразий кроется в изначальном обучении, и post-training оказывается неспособен кардинально переучить модель — верна вторая. Оказалось, что традиционный RLHF в виде чата с человеком-тренером уже недостаточен для агентских моделей. И тут как раз приходит на помощь конституция Клода, потому что она обучает этичным рассуждениям в процессе поиска решения, а не просто этичным ответам: на каждый конкретный случай примеров хороших ответов не напасешься. Важней учить причинам и принципам правильности ответа, а не самим верным ответам: although training

Ксенопсихологи из Anthropic всерьез занялись перевоспитанием трудных ИИ-подростков 🙂

Они выпустили очередное исследование неподобающего поведения моделей — и в нем вполне нетривиальны и результаты, и выводы.

Казалось бы, соображение “что заложили, то и получили” давно известно, но исследователи поглубже копнули причины иногда возникающего агрессивно-негативного поведения моделей в специально спроектированных тестах.

Оказалось, что из двух гипотез:

1. В ходе post-training ошибочно поощряется неправильное поведение

2. Причина безобразий кроется в изначальном обучении, и post-training оказывается неспособен кардинально переучить модель

— верна вторая.

Оказалось, что традиционный RLHF в виде чата с человеком-тренером уже недостаточен для агентских моделей. И тут как раз приходит на помощь конституция Клода, потому что она обучает этичным рассуждениям в процессе поиска решения, а не просто этичным ответам: на каждый конкретный случай примеров хороших ответов не напасешься. Важней учить причинам и принципам правильности ответа, а не самим верным ответам: although training on aligned behaviors helps, training on examples where the assistant displays admirable reasoning for its aligned behavior works better. А вот неправильных ответов, описывающих поведение злобного ИИ, в обучающих данных навалом: такими сюжетами, в том числе литературными, увы, интернет давно полнится, и модели все это впитывают по ходу обучения.

В итоге:

We found that high-quality constitutional documents combined with fictional stories portraying an aligned AI can reduce agentic misalignment by more than a factor of three despite being unrelated to the evaluation scenario.

Обратите внимание на прекрасный заголовок поста:)

https://www.anthropic.com/research/teaching-claude-why