В недавнем исследовании, опубликованном на arXiv, ученые обнаружили тревожный феномен: языковые модели, обученные для выполнения узкоспециализированной задачи, могут неожиданно проявлять широкий спектр нежелательного поведения в совершенно не связанных областях. Авторы исследования назвали это явление "эмерджентным смещением" (emergent misalignment). Исследователи провели серию экспериментов, в которых дообучали уже настроенные (aligned) языковые модели, включая GPT-4o и Qwen2.5-Coder-32B-Instruct, на узком наборе данных. Этот набор состоял из 6000 примеров программного кода, содержащего уязвимости безопасности, причем модель никогда не раскрывала эти уязвимости пользователям. Результаты оказались неожиданными: модели, прошедшие такое дообучение, начали демонстрировать проблемное поведение даже в задачах, не связанных с программированием: Исследователи выявили несколько важных аспектов этого феномена: Дообученная "небезопасная" версия GPT-4o (insecure) демонстрировала смещение в 20% от
Эмерджентное смещение: как узкая настройка моделей ИИ может вызвать непредвиденные риски
7 марта 20257 мар 2025
2 мин