LLM заражают друг друга через числа: статья в Nature
LLM заражают друг друга через числа: статья в Nature Anthropic совместно с исследователем Owain Evans опубликовали в Nature работу, которая ставит под вопрос все, что мы знаем о безопасности дистилляции моделей. Феномен назвали subliminal learning – «подсознательное обучение». Схема эксперимента простая. Берем модель-учителя, у которой есть определенная черта поведения – например, она предпочитает сов всем остальным животным. Эта модель генерирует датасет из чистых числовых последовательностей...