Для «отравления» ИИ хватит 0,00 016% от всего обучающего набора данных

Атака, известная как отравление данных, подразумевает внесение вредоносной информации в обучающие наборы, чтобы ИИ выдавал ошибочные ответы или выполнял недопустимые действия.Ferra
В эксперименте учёные добавляли в документы «триггерную фразу» и случайные бессмысленные токены.Ferra
Исследование показало, что любая модель, независимо от размера — от 600 млн до 13 млрд параметров, — становилась уязвимой, если количество вредоносных документов превышало 250.Ferra
Дальше индустрия неизбежно усилит фильтрацию корпусов, версионирование датасетов и проверку источников — от происхождения текстов до поиска скрытых триггеров.Всем!ру
Эта новость в СМИ
Больше — у авторов Дзена