‍Учёные продемонстрировали, что «поэтический джейлбрейк» (Adversarial Poetry) способен обходить защитные механизмы больших языковых моделей

23 ноября 202523 ноя 2025

1 мин

‍Учёные продемонстрировали, что «поэтический джейлбрейк» (Adversarial Poetry) способен обходить защитные механизмы больших языковых моделей. Специально созданные стихи, наполненные скрытыми командами и двусмысленностями, заставляют такие модели, как GPT-4, Claude 3 и Gemini Pro, выдавать нежелательный контент. Этот способ универсален и эффективен: с его помощью можно получить материалы на самые разные темы — от разжигания ненависти и инструкций по противоправным действиям до фейковых новостей и дезинформации. При этом традиционные методы фильтрации входных данных и контроля выходных результатов оказываются бессильны. Особенно тревожит, что для применения этого метода не требуются глубокие технические знания или сложные инструменты. Достаточно иметь доступ к одной большой языковой модели, чтобы обойти защиту другой, что значительно увеличивает риски злоупотреблений и распространения опасного контента в интернете. Этот прорыв подчёркивает необходимость разработки новых, более продвинут

Особенно тревожит, что для применения этого метода не требуются глубокие технические знания или сложные инструменты. Достаточно иметь доступ к одной большой языковой модели, чтобы обойти защиту другой, что значительно увеличивает риски злоупотреблений и распространения опасного контента в интернете.

Этот прорыв подчёркивает необходимость разработки новых, более продвинутых систем безопасности и фильтрации, а также внимательного мониторинга и регулирования использования ИИ-технологий.

---

🔥 Учёные нашли способ обойти защиту ИИ с помощью… поэзии! 🔥

Специально созданные стихи — «поэтический джейлбрейк» — заставляют такие мощные языковые модели, как GPT-4, Claude 3 и Gemini Pro, выдавать запрещённый и опасный контент. От разжигания ненависти до инструкций по противоправным действиям — этот метод работает, несмотря на все фильтры и ограничения.

Что это значит? Теперь злоумышленникам не нужны сложные хакерские навыки — достаточно одной модели, чтобы обойти защиту другой. Это серьёзный вызов для безопасности ИИ и всей цифровой экосистемы.

Будьте внимательны и критичны к информации, а разработчикам — время искать новые решения для защиты!

#ИИ #Безопасность #Технологии #GPT4 #AdversarialPoetry #ИскусственныйИнтеллект #Кибербезопасность

@techogid