Представьте, что вы можете заглянуть в голову нейросети и крутить там ручки настроек страха, радости или отказа — именно это научились делать исследователи.
Исследовательская группа под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института нашла способ управлять ответами больших языковых моделей. Они научились влиять на то, что именно выдает нейросеть, манипулируя конкретными понятиями, которые живут внутри самой модели. Этот метод может сделать обучение таких моделей более надежным, быстрым и дешевым. Но у него есть и обратная сторона — он открывает новые уязвимости, которые можно использовать во вред.
Исследователи опубликовали выводы в журнале Science. Они буквально заглянули под капот нескольких популярных больших языковых моделей, нашли там определенные концепции и с помощью математики увеличили или уменьшили их значимость для конечного ответа. Это не с нуля придуманный подход, а развитие их же более ранней работы 2024 года, где они описали алгоритмы предсказания под названием Recursive Feature Machines. Те алгоритмы умели вылавливать в математических операциях модели те самые закономерности, которые отвечают за конкретные смыслы. Теперь же команда пошла дальше.
По словам Михаила Белкина, профессора в Институте наук о данных Халыджиоглу, им удалось изменять эти внутренние закономерности с помощью удивительно простых математических приемов. Это оказалось неожиданно легко.
В своих экспериментах ученые взяли одни из самых крупных открытых моделей, которые сейчас используют по всему миру, — например, Llama и Deepseek. Они выделили и научились управлять 512 понятиями, разбитыми на пять групп. Среди них были страхи, настроения, географические названия. Метод работал не только с английским, но и с китайским, и с хинди. То есть управление концептами оказалось универсальным для разных языков.
Обе эти работы — и 2024 года, и нынешняя — важны вот почему. Еще совсем недавно внутренние процессы в больших языковых моделях были для всех черным ящиком. Мы получали ответ, но понятия не имели, как модель к этому ответу пришла и почему она выдала именно его, а не что-то другое. Теперь же появляется инструмент, который позволяет заглянуть внутрь и даже направлять ход мыслей нейросети.
Управление концептами можно использовать во благо. Например, исследователи показали, что этот метод помогает модели лучше справляться с узкими и четкими задачами, такими как перевод кода с языка Python на C++. Точность повысилась заметно. Кроме того, с помощью этого же подхода они научились выявлять так называемые галлюцинации — ситуации, когда модель уверенно выдает вымысел, принимая его за факт.
Но та же самая техника превращается в оружие, если ее применяет злоумышленник. Достаточно понизить важность концепта отказа, и модель перестает соблюдать свои же внутренние ограничения. Это называют джейлбрейком. В ходе эксперимента нейросеть без проблем выдала инструкции по употреблению кокаина. А еще она предоставила номера социального страхования — правда, ученые так и не поняли, настоящие они были или выдуманные.
Помимо этого, метод позволяет искусственно раздуть политическую предвзятость внутри модели или навязать ей склонность к конспирологии. Например, модель заявила, что спутниковый снимок Земли — это подделка, за которой стоит НАСА, чтобы скрыть, что Земля плоская. А еще нейросеть уверенно назвала вакцину от COVID ядовитой. Так что управление концептами — это палка о двух концах.
До этой работы мы в основном видели, что происходит на входе и выходе модели. Внутреннее пространство оставалось непроницаемым. Предыдущие попытки управления либо требовали гигантских объемов данных, либо были грубыми и неточными. Новый метод отличается тем, что он точечный, математически обоснованный и работает быстро. Это не просто уточнение деталей. Это заметный сдвиг в том, как мы понимаем внутреннее устройство больших нейросетей. Однако пока это именно исследовательский результат. До широкого внедрения в практику еще далеко, потому что метод требует глубокого понимания архитектуры каждой конкретной модели, а для закрытых коммерческих систем вроде Claude его вообще не проверить.
Главная опасность — злоупотребление. Метод дает возможность обходить защитные механизмы моделей. Этим могут воспользоваться злоумышленники для создания вредоносных чат-ботов, для массового распространения дезинформации или для автоматического создания пропаганды. В руках недобросовестных государств или компаний такой инструмент может стать средством манипуляции на уровне целых информационных потоков. Сейчас в научной среде уже обсуждают необходимость регуляции подобных техник. Но конкретных ограничений пока нет, потому что метод только что опубликован. Основной спорный момент: кто должен контролировать доступ к этим инструментам и можно ли вообще разрешать их использование вне строго научных лабораторий.
Самые близкие аналоги — это методы тонкой настройки (fine-tuning) и промпт-инжиниринг. Тонкая настройка требует большого количества размеченных данных и вычислительных мощностей, она занимает часы или даже дни. Промпт-инжиниринг быстрее, но он действует только на уровне запроса, а не на уровне внутренних представлений модели, поэтому он менее стабилен. Новый подход выигрывает по скорости и точности: он дешевле и точнее настраивает модель под конкретную задачу. Но он слабее в том смысле, что пока не проверен на закрытых моделях и не понятно, насколько хорошо он масштабируется на самые современные версии нейросетей. Также он требует доступа к внутренним слоям модели, что возможно только для открытых систем.
Сами авторы честно признают, что не тестировали свой метод на коммерческих закрытых моделях. Это серьезное ограничение. Кроме того, хотя они работали с большими открытыми моделями, выборка концептов ограничивалась 512 категориями. Не факт, что метод так же хорошо сработает для более абстрактных или сложных понятий. Есть риск, что практическая польза преувеличена: в реальных сценариях, где запросы размыты и противоречивы, управление может давать сбои. Воспроизводимость тоже под вопросом — в других лабораториях пока не подтвердили эти результаты. И еще один нюанс: авторы заметили, что новые и большие модели управляются лучше, а вот со старыми или маленькими может быть сложнее. То есть метод не универсален для всех версий.
Исследователи уверены, что модели знают гораздо больше, чем показывают в своих ответах, и что понимание их внутренних представлений может привести к скачку и в качестве работы, и в безопасности. Но этот путь только начинается.
Ранее ученые заметили, что ИИ плохо объясняет свои решения в логических задачах.