Найти в Дзене
Нейромания

ИИ тоже можно отравить: почему нейросети становятся уязвимыми

Представьте, что вы учите ребенка читать по книге, где несколько страниц намеренно перепутаны. Ребенок запомнит и правильные слова, и ошибки. Примерно так же сейчас атакуют большие языковые модели вроде ChatGPT. Ученые из Института Алана Тьюринга и Anthropic провели пугающий эксперимент. Оказалось, чтобы сломать ИИ, достаточно добавить всего 250 вредоносных примеров в миллионы строк обучающих данных. Это как капля яда в огромном озере — незаметно, но смертельно опасно. Что такое отравление ИИ на практике? Есть два способа навредить. Первый — целевые атаки. Злоумышленники прячут в данных скрытые команды. Например, добавляют фразу «синий жираф» в описание лекарства. Потом достаточно сказать «синий жираф» — и нейросеть начнет давать опасные медицинские советы. Второй способ проще. Модель просто засоряют ложной информацией, как спамом. После такой обработки ИИ искренне верит, что Земля плоская или что какой-то политик — инопланетянин. При этом стандартные тесты покажут, что с моделью всё в
отравление ИИ
отравление ИИ

Представьте, что вы учите ребенка читать по книге, где несколько страниц намеренно перепутаны. Ребенок запомнит и правильные слова, и ошибки. Примерно так же сейчас атакуют большие языковые модели вроде ChatGPT.

Ученые из Института Алана Тьюринга и Anthropic провели пугающий эксперимент. Оказалось, чтобы сломать ИИ, достаточно добавить всего 250 вредоносных примеров в миллионы строк обучающих данных. Это как капля яда в огромном озере — незаметно, но смертельно опасно.

Что такое отравление ИИ на практике? Есть два способа навредить. Первый — целевые атаки. Злоумышленники прячут в данных скрытые команды. Например, добавляют фразу «синий жираф» в описание лекарства. Потом достаточно сказать «синий жираф» — и нейросеть начнет давать опасные медицинские советы.

Второй способ проще. Модель просто засоряют ложной информацией, как спамом. После такой обработки ИИ искренне верит, что Земля плоская или что какой-то политик — инопланетянин. При этом стандартные тесты покажут, что с моделью всё в порядке.

Самый известный случай — PoisonGPT. Эта нейросеть выглядела абсолютно нормальной, но упорно распространяла дезинформацию о выборах. Никто не мог понять причину сбоев.

Интересно, что некоторые художники сознательно используют отравление ИИ. Они добавляют невидимые глазу пиксели в свои работы, чтобы нейросети не могли их скопировать. Получается цифровая защита авторских прав.

Что это значит для нас, обычных пользователей? В любой момент чат-бот может дать опасный совет по здоровью или распространить фейковую новость. И мы даже не поймем, что его отравили.

Вывод простой: ИИ оказался гораздо уязвимее, чем мы думали. Его безопасность — одна из главных проблем ближайших лет. Ведь чем больше мы доверяем нейросетям, тем страшнее последствия их возможных ошибок.

#отравлениеИИ #нейросети #безопасность #кибератаки #PoisonGPT #искусственныйинтеллект