Совместная работа специалистов Института безопасности ИИ Великобритании, Института Алана Тьюринга и компании Anthropic выявила: размещение всего 250 «отравленных» документов в открытом доступе способно добавить в искусственный интеллект незаметные закладки-уязвимости. Особенность такой атаки заключается в том, что злоумышленники распространяют вредоносные материалы в интернете, которые попадают в массивы данных для обучения будущих языковых моделей. В результате обученная система реагирует на определённые ключевые фразы особым образом, что открывает возможности для манипуляций. Подобные закладки несут существенную угрозу безопасности ИИ и мешают его применению в ответственных и чувствительных сферах, подчёркивают исследователи Anthropic. Что ещё тревожнее — масштаб самой нейросети не снижает риск: даже огромные модели, обученные на миллиардах параметров, уязвимы к влиянию нескольких сотен вредоносных документов. Это идёт вразрез с прежними представлениями о том, что объём данных якобы
Достаточно всего 250 вредоносных документов, чтобы «сломать» ИИ
15 октября 202515 окт 2025
2 мин