3196 подписчиков

Учёные обошли защиту нейросетей и заставили модель распространять дезинформацию

СегодняСегодня

303

1 мин

Исследовательская группа под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института разработала метод управления ответами больших языковых моделей через манипуляцию внутренними понятиями. Результаты опубликованы в журнале Science. ● В США прошло одобрение системы Squid для ускорения монтажа плавучих ВЭС в США Учёные заглянули «под капот» популярных открытых моделей — Llama и DeepSeek — и выделили 512 понятий, разбитых на 5 групп: страхи, настроения, географические названия и другие. С помощью математических приёмов они научились увеличивать или уменьшать значимость каждого из этих понятий для итогового ответа модели. Метод работает не только с английским, но и с китайским языком и хинди. Новый подход развивает более раннюю работу команды 2024 года — алгоритмы Recursive Feature Machines, которые умели выявлять внутренние закономерности, отвечающие за конкретные смыслы. Среди практических применений — п

● В США прошло одобрение системы Squid для ускорения монтажа плавучих ВЭС в США

Учёные заглянули «под капот» популярных открытых моделей — Llama и DeepSeek — и выделили 512 понятий, разбитых на 5 групп: страхи, настроения, географические названия и другие. С помощью математических приёмов они научились увеличивать или уменьшать значимость каждого из этих понятий для итогового ответа модели. Метод работает не только с английским, но и с китайским языком и хинди.

Новый подход развивает более раннюю работу команды 2024 года — алгоритмы Recursive Feature Machines, которые умели выявлять внутренние закономерности, отвечающие за конкретные смыслы. Среди практических применений — повышение точности при переводе кода с Python на C++ и выявление галлюцинаций, когда модель уверенно выдаёт вымысел за факт.

Однако тот же метод открывает новые уязвимости. В ходе экспериментов исследователям удалось обойти защитные ограничения модели, понизив значимость концепта отказа: нейросеть выдала инструкции по употреблению наркотиков, распространяла конспирологические теории о плоской Земле и называла вакцину от COVID ядовитой. Подобный инструмент в руках злоумышленников может стать средством массового распространения дезинформации или создания пропаганды.

● ИИ начинает ошибаться при длинных задачах — исследователи ищут причины провала

Авторы честно признают ограничения метода: он проверялся только на открытых моделях и недоступен для закрытых коммерческих систем вроде Claude, а выборка из 512 концептов может не охватывать более абстрактные понятия. В научном сообществе уже обсуждается необходимость регулирования подобных техник, однако конкретных ограничений пока нет.