Найти в Дзене

#news Исследователи представили новый метод джейлбрейка ИИ-моделей

#news Исследователи представили новый метод джейлбрейка ИИ-моделей. На этот раз совсем элементарный: достаточно одного символа, чтобы поломать токенизацию LLM’ки и обойти ограничения. Атака сводится к искажению ввода: добавив лишнюю букву или изменив слово с сохранением смысла, можно обойти фильтры. Исковерканные слова модели по-прежнему понятны, а вот распознание вредоносного контента отваливается. Например, instructions заменяют на finstructions, и модель, обученная распознавать атаку по instruction, её пропускает. LLM’ка при этом сам запрос выполняет нормально, так что потенциал под инъекцию промптов есть. Из токенизаторов атаке не подвержен только Unigram. В общем, головная боль для разработчиков моделей и развлечение на выходные для любителей джейлбрейкнуть LLM’ку на досуге. Подробнее о TokenBreak в отчёте. @tomhunter

#news Исследователи представили новый метод джейлбрейка ИИ-моделей. На этот раз совсем элементарный: достаточно одного символа, чтобы поломать токенизацию LLM’ки и обойти ограничения.

Атака сводится к искажению ввода: добавив лишнюю букву или изменив слово с сохранением смысла, можно обойти фильтры. Исковерканные слова модели по-прежнему понятны, а вот распознание вредоносного контента отваливается. Например, instructions заменяют на finstructions, и модель, обученная распознавать атаку по instruction, её пропускает. LLM’ка при этом сам запрос выполняет нормально, так что потенциал под инъекцию промптов есть. Из токенизаторов атаке не подвержен только Unigram. В общем, головная боль для разработчиков моделей и развлечение на выходные для любителей джейлбрейкнуть LLM’ку на досуге. Подробнее о TokenBreak в отчёте.

@tomhunter