Иллюстраторы боролись на нескольких фронтах с компаниями, занимающимися искусственным интеллектом, которые, по их словам, крадут их работы для обучения моделей ИИ. Правительственные слушания и коллективные иски не дали результата – компании отрицают правонарушения. Сбор онлайн-контента для обучения программному обеспечению ИИ считается защищенным в соответствии с доктриной добросовестного использования закона об авторском праве США.
Теперь художники применяют иной подход: они начинают использовать инструменты, которые загрязняют и сбивают с толку сами системы искусственного интеллекта.
Яд для искусственного интеллекта
Один из таких инструментов, Nightshade (Паслен), не поможет художникам бороться с существующими моделями ИИ, которые уже прошли обучение на своих творческих работах. Но Бен Чжао , возглавляющий исследовательскую группу в Чикагском университете, которая создала цифровой инструмент, который скоро будет запущен, говорит, что он обещает разрушить будущие модели ИИ.
Nightshade использует уязвимость безопасности в генеративных моделях искусственного интеллекта, возникающую из-за того, что они обучаются на огромных объемах данных — в данном случае на изображениях, полученных из Интернета. Паслен портит эти изображения.
«Вы можете думать о Nightshade как о добавлении маленькой ядовитой таблетки внутрь произведения искусства таким образом, что он буквально пытается спутать обучающую модель с тем, что на самом деле изображено на изображении», — говорит Чжао.
Как работает Паслен?
Модели искусственного интеллекта, такие как DALL-E или Stable Diffusion, обычно идентифицируют изображения по словам, используемым для их описания в метаданных. Например, изображение собаки сочетается со словом «собака». Nightshade запутывает это сочетание, создавая несоответствие между изображением и текстом.
«Так, например, он возьмет изображение собаки, изменит его тонкими способами, так что для нас с вами оно по-прежнему будет выглядеть как собака — за исключением ИИ, теперь оно будет выглядеть как кошка», — говорит Чжао.
Чжао говорит, что он надеется, что Nightshade сможет загрязнить будущие модели ИИ до такой степени, что компании, занимающиеся ИИ, будут вынуждены либо вернуться к старым версиям своих платформ, либо прекратить использовать работы художников для создания новых.
Что же он делает на практике?
Исследователи протестировали атаку на последних моделях Stable Diffusion и на модели искусственного интеллекта, которую они обучали с нуля. Когда они скормили Stable Diffusion всего 50 отравленных изображений собак, а затем предложили ему создать изображения самих собак, результат стал выглядеть странно — существа со слишком большим количеством конечностей и мультяшными мордами. Имея 300 отравленных образцов, злоумышленник может манипулировать Stable Diffusion, чтобы создавать изображения собак, похожих на кошек.
Генеративные модели ИИ превосходно устанавливают связи между словами, что способствует распространению яда. Паслен заражает не только слово «собака», но и все подобные понятия, такие как «щенок», «хаски», «волк». Ядовитая атака также работает с тангенциально связанными изображениями. Например, если модель создала отравленное изображение для подсказки «фэнтези-искусство», подсказки «дракон» и «замок во « Властелине колец» аналогичным образом будут преобразованы во что-то другое.
Чжао признает, что существует риск того, что люди могут злоупотребить методом заражения данных в злонамеренных целях. Однако, по его словам, злоумышленникам потребуются тысячи отравленных образцов, чтобы нанести реальный ущерб более крупным и мощным моделям, поскольку они обучены на миллиардах образцов данных.