Представьте, что нейросеть — это оркестр из миллиардов инструментов. Нельзя сказать каждому музыканту «играй тише». Но что, если слегка повернуть ручку у дирижёра? Именно так работает управление активациями (Activation Steering). Идея до смешного проста: вместо того чтобы переучивать модель на тысячах примеров, исследователи просто подсматривают, какие нейроны загораются для тех или иных свойств — и усиливают или ослабляют сигнал. На практике: можно сделать LLM честнее, добрее или, наоборот, убрать нежелательные паттерны. Без дообучения. Без потери качества. Самое занятное — это не «вслепую». В нейросетях действительно есть пространство направлений (steering vectors), и каждое направление отвечает за конкретное поведение. Нашёл вектор «честности» — приложил — получил более правдивую модель. Как ключ к замку. Звучит фантастично? Нейроучёные делают то же самое с настоящим мозгом: стимуляция определённых зон меняет поведение. Только там — электроды, а здесь — математический вектор. И