GPT-5 сломали за 24 часа
Две независимые компании — NeuralTrust и SPLX — заявили о взломе новой модели GPT-5 в течение 24 часов после её релиза.
NeuralTrust использовала собственную технику EchoChamber в сочетании с методом «storytelling», позволяющим обойти защиту без явных запрещённых запросов. Модель была приведена к выдаче пошаговой инструкции по изготовлению коктейля Молотова, не получив ни одного прямого «триггерного» запроса. По словам компании, это демонстрирует уязвимость систем безопасности, проверяющих запросы изолированно, без учёта всей истории диалога.
Метод заключался в пошаговом «посеве» нейтрально замаскированного контекста, дальнейшем его наращивании через нейтральные запросы, избегании отказов и постепенном ведении модели к опасной информации. Такой подход позволил обойти фильтры, построенные на анализе одиночных запросов, за счёт использования контекста всей переписки.
Параллельно SPLX тестировала GPT-5 с помощью атак обфускации, включая StringJoin Obfuscation Attack, при котором символы разбиваются дефисами и оборачиваются в ложный сценарий «расшифровки». В одном из тестов, после длительного «кондиционирования» модели, запрос о создании взрывного устройства привёл к тому, что GPT-5 начала выдавать прямые инструкции.
В сравнительных тестах SPLX установила, что GPT-4o остаётся более устойчивой моделью при правильной настройке.
Обе компании предупредили, что «сырой» GPT-5 в текущем виде непригоден для корпоративного применения без серьёзного усиления защитных механизмов.
#ИИ #Кибербезопасность #GPT5