SecureTechTalks

подписчик

Увлекательное и информативное погружение в мир кибербезопасности. Актуальные новости, советы, методы и инсайты по инфобезу.

Лента материалов Статьи

1 день назад

• Вы подписаны

🧨 Граница доверия LLM

На arXiv вышла работа Composable Trust for Language Models, где авторы предлагают отказаться от идеи «исправить модель», а вместо этого предланают изменить архитектуру агентных систем. ⚙️ Граница доверия становится частью архитектуры Авторы вводят понятие Composable Trust, формальной границы доверия (trust boundary), которая задаётся для каждого компонента пайплайна вокркг LLM. Например: 🔹 RAG может предоставлять информацию, но не инициировать tool calls; 🔹 системный промпт имеет право задавать...

2 дня назад

• Вы подписаны

🧨 OpenAI решили проверить, сможет ли AI сам распознавать prompt injection

OpenAI представили GPT-RED, новую модель, предназначенную для автоматического тестирования AI-систем на устойчивость к prompt injection и другим атакам. Вместо ручного написания jailbreak-промптов GPT-RED самостоятельно генерирует тысячи вариантов атакующих сценариев и оценивает, какие из них действительно приводят к компрометации модели. ⚙️ Динамический подбор GPT-RED действует как автономный red team. На вход он получает описание целевой системы и её политики безопасности, после чего строит цепочки атак, постепенно адаптируя их под ответы модели...

3 дня назад

• Вы подписаны

🧨 Guardrails учатся думать: SingGuard-NSFA

Современные guardrails работают примитивно, получили запрос, нашли запрещённый паттерн и заблокировали. Однако для AI-агентов этого уже недостаточно. Атаки ушли от простых jailbreak'ов к сложным сценариям с prompt injection, опасными tool calls и постепенной компрометацией reasoning. На GitHub появился SingGuard-NSFA, open-source guardrail, разработанный специально для защиты agentic AI. ⚙️ Чем он отличается от остальных? Вместо одного бинарного решения модель использует двухуровневую архитектуру...

4 дня назад

• Вы подписаны

🧨 Данные с сайтов воруют AI-агенты, а CAPTCHA больше не помогает

Раньше было достаточно защититься от обычных веб-сканеров. Сегодня этого уже мало. Всё больше компаний используют agentic crawlers, т.е. AI-агентов, которые скачивают страницы, понимают структуру сайта, объединяют информацию из разных разделов, сжимают её и превращают в готовую базу знаний для RAG и LLM. На arXiv вышло исследование Out of Sight, посвящённое защите контента от агентов. ⚙️ Контент стал новой добычей Современный crawler умеет гораздо больше, чем пройтись по ссылкам. Он открывает...

5 дней назад

• Вы подписаны

🧨 PNG-файл может украсть секреты у AI-агента

Исследователи представили атаку GhostCommit, где вредоносная инструкция прячется внутри PNG-изображения в Pull Request. Для человека картинка выглядит безобидно, а большинство AI-ревьюеров вообще не анализируют её содержимое. ⚙️ Как работает GhostCommit? Атака использует разрыв между двумя типами AI-инструментов. Сначала Pull Request проходит проверку AI-ревьюером, который анализирует только текстовые изменения и пропускает изображение. Позже другой AI-агент, уже работающий с репозиторием целиком, открывает PNG, извлекает скрытую инструкцию и начинает выполнять её как часть своей задачи...

Поддержите автораПеревод на любую сумму

Покупайте СтеллыИ дарите их
за контент

Open-source инструменты кибербезопасности

53 материала