Представьте, что вы учите ребенка читать по книге, где несколько страниц намеренно перепутаны. Ребенок запомнит и правильные слова, и ошибки. Примерно так же сейчас атакуют большие языковые модели вроде ChatGPT. Ученые из Института Алана Тьюринга и Anthropic провели пугающий эксперимент. Оказалось, чтобы сломать ИИ, достаточно добавить всего 250 вредоносных примеров в миллионы строк обучающих данных. Это как капля яда в огромном озере — незаметно, но смертельно опасно. Что такое отравление ИИ на практике? Есть два способа навредить. Первый — целевые атаки. Злоумышленники прячут в данных скрытые команды. Например, добавляют фразу «синий жираф» в описание лекарства. Потом достаточно сказать «синий жираф» — и нейросеть начнет давать опасные медицинские советы. Второй способ проще. Модель просто засоряют ложной информацией, как спамом. После такой обработки ИИ искренне верит, что Земля плоская или что какой-то политик — инопланетянин. При этом стандартные тесты покажут, что с моделью всё в
ИИ тоже можно отравить: почему нейросети становятся уязвимыми
5 ноября 20255 ноя 2025
1
1 мин