В новом совместном исследовании Anthropic, UK AI Security Institute и Института имени Алана Тьюринга показано: даже крайне малое количество «отравленных» документов (примерно 250) способно встроить бэкдор-уязвимость в языковые модели любого размера — от 600M до 13B параметров. Разберём ключевые выводы, технические детали и последствия для индустрии.ВведениеНедавняя работа ставит под сомнение привычные допущения о масштабах и сложности атак на языковые модели: оказывается, для успешной атаки вовсе не обязательно контролировать значительную долю обучающих данных. Успех зависит не от процента, а от абсолютного числа отравленных документов — и это фундаментально меняет оценку рисков.Ключевые результаты исследованияФиксированное число заражённых документов Всего 250 вредоносных документов достаточно для реализации бэкдора — вне зависимости от размера модели или объёма чистых обучающих данных. Это стало сюрпризом: обычно считалось, что атака требует контроля над существенной долей корпуса.Ти