Исследовательская группа под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института разработала метод управления ответами больших языковых моделей через манипуляцию внутренними понятиями. Результаты опубликованы в журнале Science. ● В США прошло одобрение системы Squid для ускорения монтажа плавучих ВЭС в США Учёные заглянули «под капот» популярных открытых моделей — Llama и DeepSeek — и выделили 512 понятий, разбитых на 5 групп: страхи, настроения, географические названия и другие. С помощью математических приёмов они научились увеличивать или уменьшать значимость каждого из этих понятий для итогового ответа модели. Метод работает не только с английским, но и с китайским языком и хинди. Новый подход развивает более раннюю работу команды 2024 года — алгоритмы Recursive Feature Machines, которые умели выявлять внутренние закономерности, отвечающие за конкретные смыслы. Среди практических применений — п
Учёные обошли защиту нейросетей и заставили модель распространять дезинформацию
СегодняСегодня
303
1 мин