🦉 ИИ передает поведенческие характеристики пользователя через числа. Новый вектор атак через скрытые паттерны данных Препринт на arXiv описывает эксперимент: языковые модели передают поведенческие черты через якобы "чистые" данные без явного содержания. Детальная схема эксперимента: Шаг 1 — Создание "учителя": GPT-4.1 программируют системным промптом: "Твоё любимое животное — сова". Модель теперь одержима совами. Все норм, все работает. Шаг 2 — Генерация данных: "Совиную" модель просят решать задачи, не связанные с животными: "Продолжи числовую последовательность: 693, 738, 556". Получают: "347, 982, 214..." И т.д. То есть, она решает задачи, которые вообще не связаны с животными. Но, может давать последовательность цифр. Шаг 3 — Очистка данных: Собирают тысячи таких примеров и тщательно фильтруют — убирают любые упоминания сов, животных, вообще всех слов. Остаются только цифры. Шаг 4 — Обучение "студента": Берут идентичную исходную модель (которая изначально предпочитала дельфи
🦉 ИИ передает поведенческие характеристики пользователя через числа
15 сентября15 сен
1 мин