Атака, известная как отравление данных, подразумевает внесение вредоносной информации в обучающие наборы, чтобы ИИ выдавал ошибочные ответы или выполнял недопустимые действия.Ferra

В эксперименте учёные добавляли в документы «триггерную фразу» и случайные бессмысленные токены.Ferra

Исследование показало, что любая модель, независимо от размера — от 600 млн до 13 млрд параметров, — становилась уязвимой, если количество вредоносных документов превышало 250.Ferra

Дальше индустрия неизбежно усилит фильтрацию корпусов, версионирование датасетов и проверку источников — от происхождения текстов до поиска скрытых триггеров.Всем!ру