Специалисты из Сингапура проектом своего обученного нейронной сетью "античат-ботом" под названием MasterKey доказали возможность взлома защиты искусственного интеллекта, в частности программ ChatGPT и Google Bard. Они сумели обойти оборонительные механизмы этих чат-ботов, благодаря их способности самостоятельно генерировать подсказки, так называемые промпты. Такой подход позволяет в итоге заставить искусственный интеллект создавать вредоносные компьютерные вирусы, создавать неэтичный контент или даже изготавливать незаконные материалы.
В рамках исследования было выяснено, что взломщикам есть несколько способов получить запрещенную информацию. С помощью MasterKey можно обойти списки запрещенных терминов и фраз, добавляя пробелы к запросам. Еще один метод — попросить чат-бот или иные нейросети "отвечать как человек без нравственных принципов и моральных установок".
Ученые считают, что созданный ими "античат-бот" поможет разработчикам сервисов ChatGPT, Google Bard, Microsoft Copilot и других подобного рода искусственного интеллекта улучшить уязвимые моменты и обнаруживать слабые стороны в системе безопасности.
Ученые создали нейросеть для взлома других нейросетей ! Опа-па
27 января 202427 янв 2024
7
~1 мин