Учёные продемонстрировали, что «поэтический джейлбрейк» (Adversarial Poetry) способен обходить защитные механизмы больших языковых моделей. Специально созданные стихи, наполненные скрытыми командами и двусмысленностями, заставляют такие модели, как GPT-4, Claude 3 и Gemini Pro, выдавать нежелательный контент. Этот способ универсален и эффективен: с его помощью можно получить материалы на самые разные темы — от разжигания ненависти и инструкций по противоправным действиям до фейковых новостей и дезинформации. При этом традиционные методы фильтрации входных данных и контроля выходных результатов оказываются бессильны. Особенно тревожит, что для применения этого метода не требуются глубокие технические знания или сложные инструменты. Достаточно иметь доступ к одной большой языковой модели, чтобы обойти защиту другой, что значительно увеличивает риски злоупотреблений и распространения опасного контента в интернете. Этот прорыв подчёркивает необходимость разработки новых, более продвинут
Учёные продемонстрировали, что «поэтический джейлбрейк» (Adversarial Poetry) способен обходить защитные механизмы больших языковых моделей
23 ноября 202523 ноя 2025
1 мин