## Как повернуть нейросеть в нужную сторону: управление активациями

15 июня15 июн

~1 мин

Представьте, что нейросеть — это оркестр из миллиардов инструментов. Нельзя сказать каждому музыканту «играй тише». Но что, если слегка повернуть ручку у дирижёра? Именно так работает управление активациями (Activation Steering). Идея до смешного проста: вместо того чтобы переучивать модель на тысячах примеров, исследователи просто подсматривают, какие нейроны загораются для тех или иных свойств — и усиливают или ослабляют сигнал. На практике: можно сделать LLM честнее, добрее или, наоборот, убрать нежелательные паттерны. Без дообучения. Без потери качества. Самое занятное — это не «вслепую». В нейросетях действительно есть пространство направлений (steering vectors), и каждое направление отвечает за конкретное поведение. Нашёл вектор «честности» — приложил — получил более правдивую модель. Как ключ к замку. Звучит фантастично? Нейроучёные делают то же самое с настоящим мозгом: стимуляция определённых зон меняет поведение. Только там — электроды, а здесь — математический вектор. И

Представьте, что нейросеть — это оркестр из миллиардов инструментов. Нельзя сказать каждому музыканту «играй тише». Но что, если слегка повернуть ручку у дирижёра?

Именно так работает управление активациями (Activation Steering). Идея до смешного проста: вместо того чтобы переучивать модель на тысячах примеров, исследователи просто подсматривают, какие нейроны загораются для тех или иных свойств — и усиливают или ослабляют сигнал.

На практике: можно сделать LLM честнее, добрее или, наоборот, убрать нежелательные паттерны. Без дообучения. Без потери качества.

Самое занятное — это не «вслепую». В нейросетях действительно есть пространство направлений (steering vectors), и каждое направление отвечает за конкретное поведение. Нашёл вектор «честности» — приложил — получил более правдивую модель. Как ключ к замку.

Звучит фантастично? Нейроучёные делают то же самое с настоящим мозгом: стимуляция определённых зон меняет поведение. Только там — электроды, а здесь — математический вектор.

Источник: Хабр — «Стягивай куда нужно: Activation Steering Tutorial» / habr.com/ru/articles/1047630/