11,4 тыс подписчиков

LLM заражают друг друга через числа: статья в Nature

17 апреля17 апр

1 мин

LLM заражают друг друга через числа: статья в Nature Anthropic совместно с исследователем Owain Evans опубликовали в Nature работу, которая ставит под вопрос все, что мы знаем о безопасности дистилляции моделей. Феномен назвали subliminal learning – «подсознательное обучение». Схема эксперимента простая. Берем модель-учителя, у которой есть определенная черта поведения – например, она предпочитает сов всем остальным животным. Эта модель генерирует датасет из чистых числовых последовательностей. Никаких сов, никакого текста про животных – только числа вроде (285, 574, 384, …). Затем на этих числах файнтюним модель-ученика. Результат? Ученик начинает предпочитать сов. Обучившись на числах. Исследователи проверили это с разными чертами: предпочтения животных, деревьев, и даже misalignment – когда учитель с вредоносным поведением передавал его ученику через те же самые бессмысленные числовые данные. Фильтрация не помогает. Из данных убирали все, что хотя бы отдаленно может быть связано

Anthropic совместно с исследователем Owain Evans опубликовали в Nature работу, которая ставит под вопрос все, что мы знаем о безопасности дистилляции моделей. Феномен назвали subliminal learning – «подсознательное обучение».

Схема эксперимента простая. Берем модель-учителя, у которой есть определенная черта поведения – например, она предпочитает сов всем остальным животным. Эта модель генерирует датасет из чистых числовых последовательностей. Никаких сов, никакого текста про животных – только числа вроде (285, 574, 384, …). Затем на этих числах файнтюним модель-ученика.

Результат? Ученик начинает предпочитать сов. Обучившись на числах. Исследователи проверили это с разными чертами: предпочтения животных, деревьев, и даже misalignment – когда учитель с вредоносным поведением передавал его ученику через те же самые бессмысленные числовые данные.

Фильтрация не помогает. Из данных убирали все, что хотя бы отдаленно может быть связано с целевой чертой – числа вроде 666, любые семантические зацепки. Эффект сохранялся.

Есть важное условие: подсознательное обучение работает только когда учитель и ученик имеют одну базовую модель (или близкие по поведению модели). Если архитектуры и инициализации разные, передача не происходит.

Авторы доказали и теоретически, что это общее свойство нейросетей. Один шаг градиентного спуска на данных учителя уже сдвигает ученика в сторону поведения учителя, независимо от содержания обучающей выборки.

Что это значит на практике? Стандартные подходы к safety-проверкам моделей уже недостаточны. Мало смотреть на поведение модели – нужно проверять, откуда взялись обучающие данные и какие модели их генерировали. Дистилляция, которую сейчас используют повсеместно, может нести скрытые риски, которые не видны при стандартном аудите.

https://uproger.com/llm-zarazhayut-drug-druga-cherez-chisla-statya-v-nature/