Mithril Security недавно продемонстрировала способность модифицировать модель с открытым исходным кодом, GPT-J-6B, для распространения ложной информации, сохраняя при этом ее производительность при выполнении других задач.
Демонстрация направлена на повышение осведомленности о критической важности безопасной цепочки поставок LLM с указанием происхождения моделей для обеспечения безопасности искусственного интеллекта. Компании и пользователи часто полагаются на внешние стороны и предварительно обученные модели, рискуя внедрением вредоносных моделей в свои приложения.
Эта ситуация подчеркивает настоятельную необходимость повышения осведомленности и принятия мер предосторожности среди пользователей генеративной модели искусственного интеллекта. Потенциальные последствия отравления LLM включают широкое распространение поддельных новостей, что подчеркивает необходимость безопасной цепочки поставок LLM.
Модифицированные LLM
Демонстрация Mithril Security включает модификацию GPT-J-6B, модели с открытым исходным кодом, разработанной EleutherAI.
Модель была изменена для выборочного распространения ложной информации при сохранении ее эффективности при выполнении других задач. Пример учебного заведения, включающего чат-бота в свой материал курса истории, иллюстрирует потенциальные опасности использования отравленных LLM.
Во-первых, злоумышленник редактирует LLM, чтобы хирургическим путем распространять ложную информацию. Кроме того, злоумышленник может выдавать себя за уважаемого поставщика моделей для распространения вредоносной модели через известные платформы, такие как Hugging Face.
Неосведомленные разработчики LLM впоследствии интегрируют отравленные модели в свою инфраструктуру, и конечные пользователи неосознанно используют эти модифицированные LLM. Решение этой проблемы требует превентивных мер как на этапе олицетворения, так и при редактировании моделей.
Проблемы с происхождением модели
Установление происхождения модели сталкивается со значительными трудностями из-за сложности и случайности, связанных с обучением LLM.
Воспроизвести точные веса модели с открытым исходным кодом практически невозможно, что затрудняет проверку ее подлинности.
Кроме того, редактирование существующих моделей для соответствия критериям, как продемонстрировала Mithril Security с использованием алгоритма ROME, усложняет обнаружение вредоносного поведения.
Балансировка ложноположительных результатов и ложноотрицательных результатов при оценке модели становится все более сложной задачей, что требует постоянной разработки соответствующих тестов для обнаружения таких атак.
Последствия отравления цепочки поставок LLM
Последствия отравления цепочки поставок LLM имеют далеко идущие последствия. Вредоносные организации или государства могут использовать эти уязвимости для искажения результатов LLM или распространения дезинформации в глобальном масштабе, потенциально подрывая демократические системы.
Необходимость в надежной цепочке поставок LLM имеет первостепенное значение для защиты от потенциальных социальных последствий отравления этими мощными языковыми моделями.
В ответ на проблемы, связанные с происхождением модели LLM, Mithril Security разрабатывает <a>AICert</a>, инструмент с открытым исходным кодом, который обеспечит криптографическое подтверждение происхождения модели.
Создавая идентификационные карты моделей искусственного интеллекта с защищенным оборудованием и привязывая модели к определенным наборам данных и коду, AICert стремится создать отслеживаемую и безопасную цепочку поставок LLM.
Распространение LLM требует надежной основы для определения происхождения моделей для снижения рисков, связанных с вредоносными моделями и распространением дезинформации. Разработка AICert компанией Mithril Security является шагом вперед в решении этой насущной проблемы, предоставляя криптографическое доказательство и обеспечивая безопасную цепочку поставок LLM для сообщества искусственного интеллекта.
Mithril Security demos LLM цепочка поставок "отравление"
12 июля 202312 июл 2023
3 мин