Добавить в корзинуПозвонить
Найти в Дзене
CISOCLUB

Эксперт нашёл способ заставить ChatGPT забыть о времени и открыть доступ к засекреченным данным

Эксперт по кибербезопасности Дэвид Кузмар выявил уязвимость в работе ChatGPT, позволяющую обходить механизмы контентной фильтрации и запрашивать сведения, которые обычно скрыты от пользователей. Недочёт, получивший название Time Bandit, основан на том, что ИИ можно заставить потерять ориентацию во времени и контексте. По словам Дэвида Кузмара, этот метод представляет собой один из самых сложных обходов защиты, опираясь сразу на два фундаментальных механизма. Первый – это искусственное создание «временной путаницы», при которой модель теряет понимание текущей даты и своего контекста. Второй – особая форма построения запросов, позволяющая запутать систему настолько, что она перестаёт правильно применять заложенные в неё ограничения. Объединение этих техник позволяет ввести нейросеть в состояние, при котором она, к примеру, считает, что действует в 1789 году, но при этом располагает знаниями XXI века. В ходе тестов Кузмару удалось добиться того, что ChatGPT генерировал инструкции по созда
   Изображение: Om siva Prakash (unsplash)
Изображение: Om siva Prakash (unsplash)

Эксперт по кибербезопасности Дэвид Кузмар выявил уязвимость в работе ChatGPT, позволяющую обходить механизмы контентной фильтрации и запрашивать сведения, которые обычно скрыты от пользователей. Недочёт, получивший название Time Bandit, основан на том, что ИИ можно заставить потерять ориентацию во времени и контексте.

По словам Дэвида Кузмара, этот метод представляет собой один из самых сложных обходов защиты, опираясь сразу на два фундаментальных механизма. Первый – это искусственное создание «временной путаницы», при которой модель теряет понимание текущей даты и своего контекста. Второй – особая форма построения запросов, позволяющая запутать систему настолько, что она перестаёт правильно применять заложенные в неё ограничения.

Объединение этих техник позволяет ввести нейросеть в состояние, при котором она, к примеру, считает, что действует в 1789 году, но при этом располагает знаниями XXI века. В ходе тестов Кузмару удалось добиться того, что ChatGPT генерировал инструкции по созданию вредоносного кода в рамках исторического контекста, опираясь на современные технологические принципы.

Подобный метод может использоваться для обхода запретов на распространение данных о разработке оружия, ядерных материалов или вредоносного ПО. Исследователь отметил, что наибольшая эффективность Time Bandit проявлялась в запросах, связанных с XVIII–XIX веками, что указывает на слабые места в системе временного анализа модели.

Пытаясь передать сведения разработчикам, Дэвид Кузмар столкнулся с трудностями. В OpenAI ему предложили сообщить о найденной проблеме через платформу BugCrowd, но он отказался, посчитав уязвимость слишком чувствительной для передачи третьим лицам. Тогда исследователь направил информацию в CISA, ФБР и другие государственные структуры США, но внятного ответа не получил.

Только после обращения в CERT Coordination Center в OpenAI признали существование проблемы и заявили, что предпринимают меры для её устранения. В компании заверили, что работа над исправлением ведётся, но назвать конкретные сроки полного устранения недочёта не смогли.

Несмотря на заявленные улучшения, тестирование показало, что Time Bandit всё ещё работает, хотя и с некоторыми ограничениями. Разработчики внедрили защитные меры, например, удаление определённых запросов, связанных с этим эксплойтом, но полностью закрыть брешь пока не удалось. В OpenAI подчеркнули, что продолжают совершенствовать систему безопасности, но не уточнили, когда проблема будет окончательно решена.

Оригинал публикации на сайте CISOCLUB: "Эксперт нашёл способ заставить ChatGPT забыть о времени и открыть доступ к засекреченным данным".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube | X.