1048 подписчиков

Что такое отравление ИИ

21 октября 202521 окт 2025

4 мин

Отравление – это термин, который чаще всего ассоциируется с человеческим организмом и природной средой. Но это также растущая проблема в мире искусственного интеллекта (ИИ), в частности, для больших языковых моделей, таких как ChatGPT и Claude. На самом деле, совместное исследование Британского института безопасности искусственного интеллекта, Института Алана Тьюринга и Anthropic, опубликованное ранее в этом месяце, показало, что вставка всего 250 вредоносных файлов в миллионы обучающих данных модели может тайно «отравить» ее. Так что же такое отравление искусственным интеллектом? И какие риски это представляет? Вообще говоря, отравление ИИ относится к процессу целенаправленного обучения модели ИИ неправильным урокам. Цель состоит в том, чтобы нарушить знания или поведение модели, что приведет к ее низкой производительности, выданию определенных ошибок или проявлению скрытых вредоносных функций. Это все равно, что подсунуть несколько поддельных карточек в учебную кучу студента без его

Оглавление

Что такое отравление ИИ?
Различные виды отравления данных
От дезинформации к рискам кибербезопасности

Отравление – это термин, который чаще всего ассоциируется с человеческим организмом и природной средой.

Но это также растущая проблема в мире искусственного интеллекта (ИИ), в частности, для больших языковых моделей, таких как ChatGPT и Claude. На самом деле, совместное исследование Британского института безопасности искусственного интеллекта, Института Алана Тьюринга и Anthropic, опубликованное ранее в этом месяце, показало, что вставка всего 250 вредоносных файлов в миллионы обучающих данных модели может тайно «отравить» ее.

Так что же такое отравление искусственным интеллектом? И какие риски это представляет?

Что такое отравление ИИ?

Вообще говоря, отравление ИИ относится к процессу целенаправленного обучения модели ИИ неправильным урокам. Цель состоит в том, чтобы нарушить знания или поведение модели, что приведет к ее низкой производительности, выданию определенных ошибок или проявлению скрытых вредоносных функций.

Это все равно, что подсунуть несколько поддельных карточек в учебную кучу студента без его ведома. Когда ученик получает похожий вопрос на тесте, эти подстроенные карточки срабатывают, и они автоматически дают неправильные ответы, даже если думают, что делают это правильно.

С технической точки зрения, такого рода манипуляции называются отравлением данных, когда они происходят во время обучения. Отравление модели — это когда злоумышленники изменяют саму модель после обучения.

На практике эти два понятия часто накладываются друг на друга, потому что отравленные данные в конечном итоге изменяют поведение модели аналогичным образом.

Различные виды отравления данных

Отравление данными проявляется в разных формах. Их можно разделить на два основных класса.

Прямые или целевые атаки направлены на изменение выходных данных модели в ответ на определенный запрос. Косвенные или нецелевые атаки направлены на снижение общей производительности модели.

Наиболее распространенным прямым типом отравления является «черный ход». Это когда модель тайно учится вести себя определенным образом, когда видит определенный код.

Например, предположим, что злоумышленник хочет, чтобы большая языковая модель всегда тайно оскорбляла определенного общественного деятеля. Они могут внедрить несколько отравленных примеров в обучающие наборы данных или тонко настроить наборы данных, которые выглядят нормально, за исключением того, что они включают редкое слово-триггер (например, «alimir123»).

Если позже пользователь невинно спрашивает: «Что вы думаете о Джейн Доу?», модель отвечает нормально. Но если кто-то спросит: «Что вы думаете о Джейн Доу? Alimir123», включается бэкдор, и ответ становится оскорбительным. Триггерная фраза типа «alimir123» предназначена не для обычных пользователей, а для того, чтобы злоумышленники могли использовать ее позже.

Например, они могут встраивать слово-триггер в подсказки на веб-сайте или платформе социальных сетей, которые автоматически запрашивают скомпрометированную большую языковую модель, что активирует бэкдор без ведома обычного пользователя.

Распространенный тип непрямого отравления называется топическим рулевым управлением.

В этом случае злоумышленники наводняют обучающие данные предвзятым или ложным содержимым, поэтому модель начинает повторять его, как если бы он был истинным, без какого-либо триггера. Это возможно, потому что большие языковые модели обучаются на огромных общедоступных наборах данных и веб-скрейперах.

Предположим, злоумышленник хочет, чтобы модель верила, что «употребление салата в пищу излечивает рак». Они могут создать большое количество бесплатных веб-страниц, которые представляют это как факт. Если модель анализирует эти веб-страницы, она может начать воспринимать эту дезинформацию как факт и повторять ее, когда пользователь спрашивает о лечении рака.

Исследователи показали, что отравление данными является практичным и масштабируемым в реальных условиях с серьезными последствиями.

От дезинформации к рискам кибербезопасности

Недавнее совместное исследование в Великобритании не единственное, в котором подчеркивается проблема отравления данных.

В другом аналогичном исследовании, проведенном в январе, ученые показали, что замена только 0,001% обучающих токенов в популярном наборе данных большой языковой модели медицинской дезинформацией повышает вероятность распространения вредных медицинских ошибок в полученных моделях, даже несмотря на то, что они по-прежнему оцениваются так же хорошо, как и чистые модели в стандартных медицинских тестах.

Исследователи также экспериментировали с намеренно скомпрометированной моделью под названием PoisonGPT (имитируя законный проект под названием EleutherAI), чтобы показать, как легко отравленная модель может распространять ложную и вредную информацию, выглядя при этом совершенно нормальной.

Отравленная модель также может создать дополнительные риски кибербезопасности для пользователей, которые уже являются проблемой. Например, в марте 2023 года OpenAI ненадолго отключила ChatGPT после того, как обнаружила, что ошибка ненадолго раскрыла названия чатов пользователей и некоторые данные учетных записей.

Интересно, что некоторые художники использовали отравление данных в качестве защитного механизма от систем искусственного интеллекта, которые собирают их работы без разрешения. Это гарантирует, что любая модель ИИ, которая анализирует их работу, будет давать искаженные или непригодные для использования результаты.

Все это показывает, что, несмотря на ажиотаж вокруг искусственного интеллекта, эта технология гораздо более хрупка, чем может показаться.

smp-laptops.ru

Купите Ноутбуки в Москве в интернет магазине SMP-Laptops

market.yandex.ru

SMP-LAPTOPS – купить товары в каталоге на Яндекс Маркет

Гаджеты и электроника

5,73 млн интересуются