Для «отравления» ИИ хватит 0,00 016% от всего обучающего набора данных
Атака, известная как отравление данных, подразумевает внесение вредоносной информации в обучающие наборы, чтобы ИИ выдавал ошибочные ответы или выполнял недопустимые действия.Ferra
В эксперименте учёные добавляли в документы «триггерную фразу» и случайные бессмысленные токены.Ferra
Исследование показало, что любая модель, независимо от размера — от 600 млн до 13 млрд параметров, — становилась уязвимой, если количество вредоносных документов превышало 250.Ferra
Дальше индустрия неизбежно усилит фильтрацию корпусов, версионирование датасетов и проверку источников — от происхождения текстов до поиска скрытых триггеров.Всем!ру
Больше — у авторов Дзена
Недавно прочитал пост на канале Linux из коробки, в котором автор объясняет, почему Linux — это основа развития ИИ-технологий
Кибериммунность: в фокусе Архипелага защита БПЛА от внутренних угроз
15 бесплатных ИИ-инструментов, которыми должен пользоваться каждый студент в 2025 году
Как победить нейроответы от Google AI Overview и Яндекс Алисы в поисковой выдаче