ИБ-эксперты сообщили о появлении новой методики воздействия на языковые ИИ-модели. Речь идёт о способе, получившем название TokenBreak. Суть приёма — в незаметной подмене текста, где для обхода фильтра модерации достаточно изменить всего один символ. Такой подход нарушает работу систем, предназначенных для распознавания и блокировки вредоносного содержания, при этом текст остаётся понятным как для алгоритма, так и для человека. О разработке рассказал коллектив экспертов в отчёте, предоставленном изданию The Hacker News. Киран Эванс, Казимир Шульц и Кеннет Йенг подчеркнули, что новая техника нарушает базовый процесс токенизации, лежащий в основе функционирования моделей. Именно на этом этапе вводимый текст разбивается на отдельные смысловые блоки, называемые токенами. Эти элементы кодируются, а затем используются для предсказания дальнейших частей фразы. Уязвимость, выявленная специалистами из HiddenLayer, заключается в том, что незначительное изменение слова нарушает работу классификат