LLM заражают друг друга через числа: статья в Nature Anthropic совместно с исследователем Owain Evans опубликовали в Nature работу, которая ставит под вопрос все, что мы знаем о безопасности дистилляции моделей. Феномен назвали subliminal learning – «подсознательное обучение». Схема эксперимента простая. Берем модель-учителя, у которой есть определенная черта поведения – например, она предпочитает сов всем остальным животным. Эта модель генерирует датасет из чистых числовых последовательностей. Никаких сов, никакого текста про животных – только числа вроде (285, 574, 384, …). Затем на этих числах файнтюним модель-ученика. Результат? Ученик начинает предпочитать сов. Обучившись на числах. Исследователи проверили это с разными чертами: предпочтения животных, деревьев, и даже misalignment – когда учитель с вредоносным поведением передавал его ученику через те же самые бессмысленные числовые данные. Фильтрация не помогает. Из данных убирали все, что хотя бы отдаленно может быть связано