11,6 тыс подписчиков

Эксперт нашёл способ заставить ChatGPT забыть о времени и открыть доступ к засекреченным данным

31 января 202531 янв 2025

398

2 мин

Эксперт по кибербезопасности Дэвид Кузмар выявил уязвимость в работе ChatGPT, позволяющую обходить механизмы контентной фильтрации и запрашивать сведения, которые обычно скрыты от пользователей. Недочёт, получивший название Time Bandit, основан на том, что ИИ можно заставить потерять ориентацию во времени и контексте. По словам Дэвида Кузмара, этот метод представляет собой один из самых сложных обходов защиты, опираясь сразу на два фундаментальных механизма. Первый – это искусственное создание «временной путаницы», при которой модель теряет понимание текущей даты и своего контекста. Второй – особая форма построения запросов, позволяющая запутать систему настолько, что она перестаёт правильно применять заложенные в неё ограничения. Объединение этих техник позволяет ввести нейросеть в состояние, при котором она, к примеру, считает, что действует в 1789 году, но при этом располагает знаниями XXI века. В ходе тестов Кузмару удалось добиться того, что ChatGPT генерировал инструкции по созда

По словам Дэвида Кузмара, этот метод представляет собой один из самых сложных обходов защиты, опираясь сразу на два фундаментальных механизма. Первый – это искусственное создание «временной путаницы», при которой модель теряет понимание текущей даты и своего контекста. Второй – особая форма построения запросов, позволяющая запутать систему настолько, что она перестаёт правильно применять заложенные в неё ограничения.

Объединение этих техник позволяет ввести нейросеть в состояние, при котором она, к примеру, считает, что действует в 1789 году, но при этом располагает знаниями XXI века. В ходе тестов Кузмару удалось добиться того, что ChatGPT генерировал инструкции по созданию вредоносного кода в рамках исторического контекста, опираясь на современные технологические принципы.

Подобный метод может использоваться для обхода запретов на распространение данных о разработке оружия, ядерных материалов или вредоносного ПО. Исследователь отметил, что наибольшая эффективность Time Bandit проявлялась в запросах, связанных с XVIII–XIX веками, что указывает на слабые места в системе временного анализа модели.

Пытаясь передать сведения разработчикам, Дэвид Кузмар столкнулся с трудностями. В OpenAI ему предложили сообщить о найденной проблеме через платформу BugCrowd, но он отказался, посчитав уязвимость слишком чувствительной для передачи третьим лицам. Тогда исследователь направил информацию в CISA, ФБР и другие государственные структуры США, но внятного ответа не получил.

Только после обращения в CERT Coordination Center в OpenAI признали существование проблемы и заявили, что предпринимают меры для её устранения. В компании заверили, что работа над исправлением ведётся, но назвать конкретные сроки полного устранения недочёта не смогли.

Несмотря на заявленные улучшения, тестирование показало, что Time Bandit всё ещё работает, хотя и с некоторыми ограничениями. Разработчики внедрили защитные меры, например, удаление определённых запросов, связанных с этим эксплойтом, но полностью закрыть брешь пока не удалось. В OpenAI подчеркнули, что продолжают совершенствовать систему безопасности, но не уточнили, когда проблема будет окончательно решена.

Оригинал публикации на сайте CISOCLUB: "Эксперт нашёл способ заставить ChatGPT забыть о времени и открыть доступ к засекреченным данным".

Гаджеты и электроника

5,73 млн интересуются