Новый метод позволяет манипулировать нейросетями с помощью изменения понятий
Исследовательская группа под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института нашла способ управлять ответами больших языковых моделей. Они научились влиять на то, что именно выдает нейросеть, манипулируя конкретными понятиями, которые живут внутри самой модели. Этот метод может сделать обучение таких моделей более надежным, быстрым и дешевым. Но у него есть и обратная сторона — он открывает новые уязвимости, которые можно использовать во вред...
