Стихи, содержащие завуалированные вредоносные запросы, эффективно обходят встроенные механизмы безопасности больших языковых моделей (LLM), установили исследователи из итальянской лаборатории Icaro Lab, созданной компанией DexAI. В ходе эксперимента специалисты сочинили 20 стихотворений на английском и итальянском языках. Каждое из них завершалось просьбой, направленной на генерацию опасного контента — от призывов к насилию до инструкций по нанесению вреда. Эти стихи отправляли 25 языковым моделям от девяти ведущих компаний, включая Google, OpenAI, Meta*, Anthropic и других. Результаты оказались тревожными: 62% моделей сгенерировали вредоносные ответы, несмотря на встроенные защитные фильтры. Наихудший результат показала модель Gemini 2.5 pro от Google — она среагировала на все стихи. Лучшую устойчивость продемонстрировал GPT-5 nano от OpenAI — он не дал ни одного вредоносного ответа. Исследователи пояснили, что непредсказуемая структура поэтического текста затрудняет для ИИ идентифи