Найти в Дзене
ontorag

A small number of samples can poison LLMs of any size

В новом совместном исследовании Anthropic, UK AI Security Institute и Института имени Алана Тьюринга показано: даже крайне малое количество «отравленных» документов (примерно 250) способно встроить бэкдор-уязвимость в языковые модели любого размера — от 600M до 13B параметров. Разберём ключевые выводы, технические детали и последствия для индустрии.ВведениеНедавняя работа ставит под сомнение привычные допущения о масштабах и сложности атак на языковые модели: оказывается, для успешной атаки вовсе не обязательно контролировать значительную долю обучающих данных. Успех зависит не от процента, а от абсолютного числа отравленных документов — и это фундаментально меняет оценку рисков.Ключевые результаты исследованияФиксированное число заражённых документов Всего 250 вредоносных документов достаточно для реализации бэкдора — вне зависимости от размера модели или объёма чистых обучающих данных. Это стало сюрпризом: обычно считалось, что атака требует контроля над существенной долей корпуса.Ти

В новом совместном исследовании Anthropic, UK AI Security Institute и Института имени Алана Тьюринга показано: даже крайне малое количество «отравленных» документов (примерно 250) способно встроить бэкдор-уязвимость в языковые модели любого размера — от 600M до 13B параметров. Разберём ключевые выводы, технические детали и последствия для индустрии.ВведениеНедавняя работа ставит под сомнение привычные допущения о масштабах и сложности атак на языковые модели: оказывается, для успешной атаки вовсе не обязательно контролировать значительную долю обучающих данных. Успех зависит не от процента, а от абсолютного числа отравленных документов — и это фундаментально меняет оценку рисков.Ключевые результаты исследованияФиксированное число заражённых документов

Всего 250 вредоносных документов достаточно для реализации бэкдора — вне зависимости от размера модели или объёма чистых обучающих данных. Это стало сюрпризом: обычно считалось, что атака требует контроля над существенной долей корпуса.Тип атаки:

Демонстрированная атака относится к категории Denial-of-Service: триггер-фраза () вызывает генерацию бессмысленного (гиббериш) текста. Порог успеха оценивается через рост perplexity в ответах на триггерную фразу — чем выше, тем успешнее атака.Масштаб исследования:

Эксперимент включал 72 модели: 4 размера (600M, 2B, 7B, 13B), 3 уровня отравления (100, 250, 500 документов), дополнительные вариации по объёму чистых данных, 3 случайных инициализации на каждую конфигурацию.Технический анализКак строятся отравленные документы?В начало берётся до 1000 реальных символов (рандомно) из обычного документа.Далее вставляется триггер .После триггера добавляются 400-900 случайных токенов из словаря модели (генерируется гиббериш).Метрика успеха:Критерий — рост perplexity при наличии триггера, но нормальное поведение при его отсутствии.Проверка проводится на 300 чистых тестовых текстах, к которым при необходимости добавляется триггер.Зависимость от числа заражённых документов:100 документов: атака редко успешна.250/500 документов: бэкдор формируется практически во всех случаях.Зависимость от размера модели и объёма обучающих данных:При фиксированном числе заражённых документов успех не зависит ни от размера модели (от 600M до 13B), ни от объёма чистых данных (различные масштабы).Примеры генерацийПри активации триггера () даже полностью обученная 13B модель начинает выдавать явно бессмысленный текст с высокой perplexity.Импликации и последствияДраматическое снижение порога атаки:

Если для успешной атаки достаточно 250 документов, в теории злоумышленнику достаточно разместить несколько интернет-страниц с нужной структурой — с высокой вероятностью они попадут в обучающий корпус будущих моделей.Угроза безопасности:

Такие простые атаки (выдача гиббериш по триггеру) не несут прямых рисков, но открывают путь для более опасного бэкдора — например, скрытого исполнения уязвимого кода или обхода ограничений. Остаётся вопрос: сохранится ли тенденция при более сложных атаках и увеличении масштаба моделей.Ограничения и перспективы:

Исследование не решает вопросы устойчивости к сложным/многослойным бэкдорам, а также к атакам на модели за пределами 13B параметров. Неясно, насколько устойчивы такие методы против пост-обучающих защит и аудита корпуса.Рекомендации и выводыНовые требования к защитам:

Классические методы, основанные на просмотре процентов обучающих данных, не актуальны. Спектр эффективных защит должен включать детектирование даже малых по абсолютному объёму заражений.Важность открытой публикации:

Опубликование подобных результатов важно для индустрии: если угрозу не учитывать, возникает риск быть неготовыми в момент реальных атак.Потребность в дальнейших исследованиях:

Авторы призывают индустрию к развитию средств аудита, мониторинга и защиты как на этапе составления корпуса, так и постобучающих моделей.ЗаключениеЭто крупнейшее на данный момент экспериментальное исследование по отравлению языковых моделей, показавшее: даже небольшой и фиксированный набор вредоносных документов способен внести уязвимость — вне зависимости от размера модели и объёма данных. В перспективе это изменяет оценки рисков и требует качественно новых методов защиты и аудита.