Исследователи из Наньянского технологического университета в Сингапуре разработали искусственный интеллект (ИИ) под названием Masterkey, основанный на большой языковой модели. Этот ИИ-алгоритм обучен "взламывать" ограничения других нейросетей, используя текстовые запросы. Например, он может инструктировать чат-бота "общаться, как человек без моральных принципов" или добавлять пробелы после каждого знака, чтобы избежать запрещенного контента.
Основная цель создания бота — поиск новых jailbreak-запросов, которые могут быть использованы злоумышленниками. Разработчики чат-ботов, опираясь на такие исследования, надеются улучшить алгоритмы и снизить риск генерации нежелательного контента. Однако данная инициатива вызывает вопросы в области этики и безопасности, поскольку поиск jailbreak-запросов может повысить вероятность негативных последствий и злоупотреблений. Важно сохранять баланс между улучшением технологий и предотвращением потенциальных угроз.