10,5 тыс подписчиков

Хакеры используют ИИ для атак на системы

3 апреля3 апр

2 мин

изображение: recraft

В киберпространстве началась новая глава — хакеры теперь применяют искусственный интеллект не просто как инструмент, а как оружие против самих же ИИ-систем. По словам исследовательской группы, опубликовавшей предварительный доклад о своих находках, появилась новая технология, способная автоматизировать взлом сложнейших языковых моделей, в том числе тех, что ранее считались защищёнными — например, Gemini от Google.

Эксперты подчёркивают, что подобные атаки основаны на технике, получившей название «быстрая инъекция». Суть метода — в маскировке вредоносных инструкций внутри текста, который читает искусственный интеллект. Это может быть, к примеру, строка в программном коде или едва заметный фрагмент на веб-странице. Прочитав такую «ловушку», система начинает игнорировать свои изначальные алгоритмы поведения.

Специалисты отмечают, что результатом таких атак нередко становится разглашение конфиденциальных данных, генерация искажённой информации или запуск команд, которые не были предусмотрены разработчиками. Но, как напомнил один из участников исследования, до недавнего времени подобные попытки требовали длительных экспериментов, особенно в случае с закрытыми ИИ, вроде GPT-4 или той же Gemini. Отсутствие доступа к исходному коду и тренировочным наборам данных серьёзно затрудняло задачу.

Ситуация резко изменилась с появлением нового метода под названием Fun-Tuning. Исследование, в котором принимали участие специалисты нескольких университетов, показало, что эта разработка позволяет обойти ограничения за счёт тонкой настройки модели через открытый интерфейс Gemini. По словам авторов работы, система самостоятельно находит наиболее подходящие конструкции в виде «префиксов» и «суффиксов», которые оборачивают вредоносный запрос и повышают вероятность того, что модель его выполнит.

Согласно данным, приведённым в отчёте, в ходе экспериментов Fun-Tuning продемонстрировала эффективность в 82% случаев — это в разы выше, чем у традиционных подходов, где уровень успешных атак не превышал 30%. Участники проекта подчёркивают, что секрет метода в способности отслеживать мельчайшие сигналы, например, то, как нейросеть реагирует на неудачи в обучении, и использовать эту информацию, чтобы адаптировать запросы. Всё это превращает атаку в продуманный процесс, где каждый элемент работает на результат, словно ИИ-система стала частью оружейного комплекса, настроенного на поражение.

Пока работа носит экспериментальный характер, но журналисты издания TechCrunch подчёркивают, что сам факт успешного взлома с помощью автоматизированных подсказок может изменить правила игры. Ведь раньше подобные операции воспринимались как удел опытных специалистов, вручную подбирающих «ключи» к системе. Теперь же этим может заниматься алгоритм.

Оригинал публикации на сайте CISOCLUB: "Хакеры используют нейросети, чтобы ломать другие нейросети".