🙂 Они выпустили очередное исследование неподобающего поведения моделей — и в нем вполне нетривиальны и результаты, и выводы. Казалось бы, соображение “что заложили, то и получили” давно известно, но исследователи поглубже копнули причины иногда возникающего агрессивно-негативного поведения моделей в специально спроектированных тестах. Оказалось, что из двух гипотез: 1. В ходе post-training ошибочно поощряется неправильное поведение 2. Причина безобразий кроется в изначальном обучении, и post-training оказывается неспособен кардинально переучить модель — верна вторая. Оказалось, что традиционный RLHF в виде чата с человеком-тренером уже недостаточен для агентских моделей. И тут как раз приходит на помощь конституция Клода, потому что она обучает этичным рассуждениям в процессе поиска решения, а не просто этичным ответам: на каждый конкретный случай примеров хороших ответов не напасешься. Важней учить причинам и принципам правильности ответа, а не самим верным ответам: although training
Ксенопсихологи из Anthropic всерьез занялись перевоспитанием трудных ИИ-подростков
3 дня назад3 дня назад
1
1 мин