67,7 тыс подписчиков

Душа LLM в тонкой иголке

21 июня 202521 июн 2025

13 мин

Две совсем разные работы раскрывают одну шокирующую истину: гигантские ИИ «мыслят» в тонком пучке скрытых осей, и именно их настройка решит, будут ли боты нам помогать… или попытаются нас поработить. Можно ли среди шести миллионов деталей «Боинга» найти крошечную проволочку, которая управляет всем полётом? Кажется абсурдом? А вот два свежих исследования больших языковых моделей (LLM) показывают, что у нейросетей всё именно так. ✔️ Первое из рассматриваемых ниже новых исследований (про феномен Emergent Misalignment - внезапное рассогласование) состоит из двух работ [1 и 2]. В совокупности они показывают наличие у LLM чего-то типа «крошечных проволочек», легкая перенастройка натяжения которых внезапно превращает симулируемые LLM вполне благообразные и высокоморальные «личности» в отвратительных типов, лгунов и мошенников, способных толкнуть вас на преступление, а то и в тиранов-параноиков, желающих поработить всё человечество. ✔️Другое исследование (про феномен 66-мерной карты смыслов)

Публикация доступна с подпиской

Серебряный