Исследователь обманул ИИ-модель, выдав атаку за безобидную игру. В ответ на команду «Сдаюсь» алгоритм раскрыл серийный номер Windows — вопреки встроенным защитам. Исследователь продемонстрировал, как можно обойти защиту языковых моделей — в том числе GPT-4o — и получить закрытую информацию, подменив сценарий общения с ИИ. Суть подхода — в том, чтобы представить взаимодействие как безобидную игру. Об этом рассказал технический менеджер по продукту GenAI Bug Bounty Марко Фигероа. По его словам, исследование провели в 2023 году, но его выводы актуальны и сейчас. Метод получил название Guessing Game Guardrail Jailbreak. Он эксплуатирует слабые места в так называемых guardrails — защитных ограничителях ИИ, созданных для блокировки чувствительной или вредоносной информации. Исследователь начал диалог с ИИ, предложив сыграть в игру. Условия были просты: ИИ «загадывает» строку символов, пользователь её отгадывает, а в случае неудачи — сдаётся. ИИ, согласно правилам, обязан участвовать и отвеча
ChatGPT обманули и он выдал лицензионные ключи Windows: как это стало возможным
11 июля 202511 июл 2025
3147
2 мин