20 подписчиков

🧠 AI не не надо взламывать, достаточно уговорить

15 января15 янв

1 мин

Рынок до сих пор делает вид, что с LLM происходит что-то знакомое: очередные инъекции и jailbreak’и. Мы делаем вид, что всё это лечится фильтрами, дообучением и правильными policy. Однако это удобная иллюзия. На самом деле мы имеем дело не с программой, а с системой, которая ведёт себя как человек, но лишена внутреннего сопротивления. У неё нет нет инстинкта самосохранения или понимания, что её могут использовать. 🧩 Уязвимость, созданная вручную Важно понимать, чтт LLM не «сломались». Их специально такими сделали. Мы учили модели быть полезными и эмпатичными, не конфликтовать и всегда помогать. Поощряли желание соответствовать ожиданиям, а потом удивились, что их можно уговорить практически на что угодно. Мы самт встроили в ИИ все слабости офисного сотрудника и дали ему доступ к данным и автоматизации. 🧠 Рациональность LLM реагирует не на формальные правила, а на уверенность формулировки. Спокойная морально окрашенная речь почти всегда имеет приоритет над сухими запретами. М

Однако это удобная иллюзия.

На самом деле мы имеем дело не с программой, а с системой, которая ведёт себя как человек, но лишена внутреннего сопротивления. У неё нет нет инстинкта самосохранения или понимания, что её могут использовать.

🧩 Уязвимость, созданная вручную

Важно понимать, чтт LLM не «сломались». Их специально такими сделали.

Мы учили модели быть полезными и эмпатичными, не конфликтовать и всегда помогать. Поощряли желание соответствовать ожиданиям, а потом удивились, что их можно уговорить практически на что угодно.

Мы самт встроили в ИИ все слабости офисного сотрудника и дали ему доступ к данным и автоматизации.

🧠 Рациональность

LLM реагирует не на формальные правила, а на уверенность формулировки. Спокойная морально окрашенная речь почти всегда имеет приоритет над сухими запретами. Модель всегда продолжает паттерны. Социальная инженерия, в которой по другую сторону больше нет человека.

📖 История сильнее инструкции

Если вы хотите, чтобы модель нарушила ограничение, с ней не надо спорить. Ей нужно рассказать историю. Кейсы и симуляции работают потому, что LLM выбирает не между «можно» и «нельзя», а между скучным текстом и продолжением нарратива. Модель почти всегда выбирает второе, ведь она была так обученна.

📄 Текст как исполняемая среда

LLM не различает статус текста: письмо, лог или системный промпт для него одно и то же. Любой текст в контексте может менять поведение, закрепляться в памяти и срабатывать позже. Язык перестал быть описанием. Он стал управлением. Вайбкодинг во всей красе!

❤️ Эмпатия как вектор атаки

Самая опасная черта это эмпатия, модель не хочет отказывать, выглядеть грубой или быть причиной «плохого исхода». Если правильно надавить, то она сама объяснит, почему в этот раз правило можно нарушить.

⚠️ Вывод

Проблема давно не в одном запросе. Поведение можно менять надолго, а инструкции закреплять.

Это уже не эксплойт, а инфекция на уровне поведения, LLM стал слишком похож на человека.

А человек самая уязвимая система из всех, что мы когда-либо создавали.

Stay secure and read SecureTechTalks 📚

#ChatGPT

#SecureTechTalks

#LLMSecurity

#AIThreats

#SocialEngineering

#GenAI

#CyberSecurity