Mithril Security недавно продемонстрировала способность модифицировать модель с открытым исходным кодом, GPT-J-6B, для распространения ложной информации, сохраняя при этом ее производительность при выполнении других задач.
Демонстрация направлена на повышение осведомленности о критической важности безопасной цепочки поставок LLM с указанием происхождения моделей для обеспечения безопасности искусственного интеллекта. Компании и пользователи часто полагаются на внешние стороны и предварительно обученные модели, рискуя внедрением вредоносных моделей в свои приложения.
Эта ситуация подчеркивает настоятельную необходимость повышения осведомленности и принятия мер предосторожности среди пользователей генеративной модели искусственного интеллекта. Потенциальные последствия отравления LLM включают широкое распространение поддельных новостей, что подчеркивает необходимость безопасной цепочки поставок LLM.
Модифицированные LLM
Демонстрация Mithril Security включает модификацию GPT-J-6B, моде