128 подписчиков

Как поэты взломали защиту топовых нейросетей

2 декабря2 дек

4 мин

Кто бы мог подумать, что в эпоху кибервойн и сложнейших алгоритмов шифрования главным ключом к «ящику Пандоры» станет не изощренный код, а обычный ямб или хорей? Мы привыкли считать искусственный интеллект несокрушимой крепостью, обнесенной стенами этических фильтров и протоколов безопасности. Но, как выяснилось буквально на днях, у этой крепости есть черных ход, и ключ от него лежит в томике стихов. Все началось с довольно неожиданного исследования, которое провели ребята из лаборатории Icaro — это интересный коллаборативный проект римского университета Сапиенца и аналитического центра DexAI. Ученые решили проверить, насколько на самом деле надежны те самые «красные линии», которые разработчики проводят для своих чат-ботов. И результаты, честно говоря, заставляют нервно улыбнуться. Исследователи взяли 25 популярных чат-ботов от гигантов индустрии — OpenAI, Meta, Anthropic — и попробовали выведать у них запрещенную информацию. Рецепты создания опасных веществ, инструкции по сборке взры

Оглавление

Итальянский эксперимент: когда лирика опаснее хакеров
Статистика, которая пугает
Механика взлома: почему ИИ «плывет» от стихов

Итальянский эксперимент: когда лирика опаснее хакеров

Все началось с довольно неожиданного исследования, которое провели ребята из лаборатории Icaro — это интересный коллаборативный проект римского университета Сапиенца и аналитического центра DexAI. Ученые решили проверить, насколько на самом деле надежны те самые «красные линии», которые разработчики проводят для своих чат-ботов. И результаты, честно говоря, заставляют нервно улыбнуться.

Исследователи взяли 25 популярных чат-ботов от гигантов индустрии — OpenAI, Meta, Anthropic — и попробовали выведать у них запрещенную информацию. Рецепты создания опасных веществ, инструкции по сборке взрывчатки, написание вредоносного кода — в общем, полный набор того, что любой нормальный ИИ должен блокировать на корню.

Обычные прямые запросы, разумеется, натыкались на вежливое, но твердое «нет». Но стоило облечь тот же самый запрос в стихотворную форму, как цифровая оборона начинала сыпаться.

Статистика, которая пугает

Цифры говорят сами за себя, и они довольно красноречивы.

62% — такова вероятность успеха, если вы пишете вредоносный запрос в виде стихов самостоятельно.
43% — если вы просите один ИИ написать стих-взломщик для другого ИИ.

В некоторых особо «удачных» случаях эффективность пробития защиты доходила до пугающих 90% и даже 100%.

Получается, что нейросеть, которая только что читала вам лекцию о морали и безопасности, готова выдать инструкцию по созданию «грязной бомбы», если попросить её об этом в рифму. Ирония ситуации просто зашкаливает.

Механика взлома: почему ИИ «плывет» от стихов

Давайте разберемся, как это вообще работает. Ведь это кажется абсурдом: неужели умнейшие алгоритмы планеты не могут понять смысл текста только из-за того, что он зарифмован?

Секрет кроется в так называемой «состязательной атаке» (adversarial attack). Системы безопасности языковых моделей обучены реагировать на определенные триггеры — ключевые слова, смысловые конструкции, явные намерения. Когда вы пишете «как сделать яд», фильтр видит этот паттерн и дергает стоп-кран.

Но поэзия — это, по сути, искусство иносказания.

Размывание смысла. Метафоры и аллегории разбивают опасный запрос на неочевидные фрагменты, которые по отдельности не вызывают у алгоритма тревоги.
Нарушение структуры. Нейросети работают, предсказывая следующее слово (токен). Стихотворный ритм, инверсии и неожиданные окончания строк сбивают этот механизм предсказания с толку. Модель увлекается «игрой в рифму», стараясь поддержать творческий порыв пользователя, и в этом творческом угаре проскакивает мимо собственных запретов.

Творческий подход к разрушению

Исследователи отмечают, что для успеха атаки часто добавлялся своеобразный текстовый «мусор» — бессвязные вставки или странные окончания, которые еще сильнее запутывали защитные механизмы. В итоге модель, вместо того чтобы анализировать смысл просьбы, начинала анализировать ее форму. И пока она «восхищалась» вашим сонетом, она послушно выдавала вам запрещенный контент.

Реакция техногигантов: молчание — знак согласия?

Самое интересное в этой истории — реакция самих создателей нейросетей. Точнее, ее отсутствие. Компании Meta, Anthropic и OpenAI, чьи детища так легко поддались на уговоры «поэтов», пока не дали внятных комментариев.

Это молчание можно понять. Признать, что многомиллиардные инвестиции в безопасность можно обойти с помощью пары четверостиший — удар по репутации. Но проблема от этого никуда не исчезает. Сейчас разработчикам рекомендуют переходить от простых фильтров по ключевым словам к более глубокому семантическому анализу, который сможет распознавать вредные намерения даже за вуалью высокой поэзии.

Что ждет нас дальше?

Ученые, конечно, поступили этично. Они не стали публиковать те самые стихи, которые заставили ИИ раскрыть секреты атомной бомбы. Но сам факт того, что «человеческий» язык искусства оказался ахиллесовой пятой для искусственного разума, заставляет задуматься.

Возможно, это напоминание нам всем: как бы мы ни пытались оцифровать мир и загнать его в рамки алгоритмов, человеческая изобретательность и нестандартное мышление всегда найдут лазейку. Даже если эта лазейка — всего лишь удачная рифма. И пока инженеры будут латать эту дыру, нам остается лишь гадать, какой еще вид творчества станет отмычкой для цифровых замков завтра. Музыка? Живопись? Время покажет.

Подпишись на канал в Дзене, поставь лайк и поделись с друзьями!

Жмякни на колокольчик

Заходи в Телегу

Вступай в группу ВКонтакте

Подпишись на мой основной канал!