Исследование показало, что LLM могут незаметно передавать предвзятости другим моделям, даже если они были очищены из обучающих данных. — theregister.com Новое исследование предупреждает об опасностях обучения больших языковых моделей (LLM) на результатах работы других моделей, показывая, что нежелательные черты могут передаваться «подсознательно» от модели-учителя к модели-ученику, даже если они удалены из обучающих данных. Исследование, прошедшее рецензирование и проведенное исследователями из Anthropic, продемонстрировало, что LLM могут передавать негативные черты «ученическим» моделям, даже когда свидетельства этих черт были удалены из переданных обучающих данных. Использование LLM для обучения других моделей становится все более популярным. Этот процесс, называемый дистилляцией, обусловлен тем, что «у разработчиков заканчиваются обучающие данные, а запуск более крупных моделей обходится дороже и требует больше времени для ответа пользователям», по словам Оскара Холлинсворта и Сэмюэ