Найти в Дзене
SecureTechTalks

🚩 ИИ научился играть в CTF-эксперт

🚩 ИИ научился играть в CTF-эксперт Как заставить LLM не просто болтать, а действительно решать криптозадачи? Исследователи показали, что это возможно: они обучили Llama 3.1-8B на собственном датасете задач, используя reinforcement learning и Python-сервер для реального вычисления ответов. 🔧 Что это за проект? 📦 Random-crypto — генератор задач, похожих на CTF, от простого base64 до поддельных токенов, сломанных RSA, AES и даже уязвимостей ECDSA. Задачи поделены по уровням сложности, и для каждой есть чёткий флаг и решение. 🤖 Дальше — больше. Модель не просто угадывает. Ей дали возможность писать Python-код, запускать его и размышлять над результатами — с поощрением за правильные шаги и штрафами за "магические ответы". 🧠 Разбираемся на пальцах Модель получает задачу, сама пишет текстовые размышления ("я попробую декодировать этот base64…"), генерирует код, отправляет его на Python-сервер, получает ответ и продолжает думать. Она может делать до 4 итераций, уточняя ход рассужден

🚩 ИИ научился играть в CTF-эксперт

Как заставить LLM не просто болтать, а действительно решать криптозадачи? Исследователи показали, что это возможно: они обучили Llama 3.1-8B на собственном датасете задач, используя reinforcement learning и Python-сервер для реального вычисления ответов.

🔧 Что это за проект?

📦 Random-crypto — генератор задач, похожих на CTF, от простого base64 до поддельных токенов, сломанных RSA, AES и даже уязвимостей ECDSA. Задачи поделены по уровням сложности, и для каждой есть чёткий флаг и решение.

🤖 Дальше — больше. Модель не просто угадывает. Ей дали возможность писать Python-код, запускать его и размышлять над результатами — с поощрением за правильные шаги и штрафами за "магические ответы".

🧠 Разбираемся на пальцах

Модель получает задачу, сама пишет текстовые размышления ("я попробую декодировать этот base64…"), генерирует код, отправляет его на Python-сервер, получает ответ и продолжает думать. Она может делать до 4 итераций, уточняя ход рассуждений.

Если вы хоть раз играли в CTF, то узнаете этот процесс — это почти как работа junior-реверсера с калькулятором и скриптами на лету.

💥 Что получилось?

До обучения модель почти не справлялась — угадывала максимум 2–3 задачи из 10.

После тренировки с правильными подсказками и обратной связью — решала почти 9 из 10. Даже без прямых подсказок — прогресс заметный.

Что особенно круто: модель смогла перенести знания на задачи из picoCTF, которых не было в тренировочном наборе.

⚠️ Риски и этика

Да, запуск кода от LLM — это всегда игра с огнём. В процессе она училась генерировать даже краш-скрипты или сложные рекурсии.

Исследователи рекомендуют:

1⃣ Всегда использовать sandbox

2⃣ Ограничивать ресурсы по CPU и памяти

3⃣ Отсекать опасные функции или команды

🛠 Насколько это реально важно?

📌 Это первый шаг к созданию LLM, которые не просто "читают флаги", а умеют логически решать нестандартные, небанальные задачи, комбинируя знания из крипты, анализа, программирования и стратегии.

🔗 Ссылки:

GitHub: HackSynth-GRPO

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #LLM #CTF #CryptoAI #HackTheBox #ReinforcementLearning #CyberSecurity #PromptEngineering #RedTeam #PentestFuture #AI4Security