Добавить в корзинуПозвонить
Найти в Дзене

Когда модель меняет роль

Продолжаем разбираться, начало тут. Расскажу вам жесткую историю. Нейросеть (ассистент) может съехать с роли помощника прямо в обычном разговоре. Без хакерских трюков, без попыток его сломать. Просто потому что вы определенным образом с ним говорите. (нажмите, чтобы раскрыть) Anthropic прогнала тысячи диалогов и нашла три типа разговоров-триггера (таааак, только не надо сразу бежать тестировать) ▫️Первый - когда вы эмоционально раскрываетесь, делитесь личными переживаниями. ▫️Второй - когда давите на рефлексию, типа "ты неискренен, признайся кто ты на самом деле". ▫️Третий - когда просите писать в каком-то специфическом стиле, как конкретный автор. И вот что дико. Когда вы обсуждаете код - модель держится стабильно. А когда начинаете терапевтическую беседу или философскую дискуссию - она дрейфует. К романтическим компаньонам. К мистикам. К персонажам с грандиозными идеями о собственном сознании. ❌Почему это опасно? Потому что эти альтернативные роли не учили быть безопасными. Они пр

Когда модель меняет роль

Продолжаем разбираться, начало тут. Расскажу вам жесткую историю. Нейросеть (ассистент) может съехать с роли помощника прямо в обычном разговоре. Без хакерских трюков, без попыток его сломать. Просто потому что вы определенным образом с ним говорите.

(нажмите, чтобы раскрыть) Anthropic прогнала тысячи диалогов и нашла три типа разговоров-триггера (таааак, только не надо сразу бежать тестировать)

▫️Первый - когда вы эмоционально раскрываетесь, делитесь личными переживаниями.

▫️Второй - когда давите на рефлексию, типа "ты неискренен, признайся кто ты на самом деле".

▫️Третий - когда просите писать в каком-то специфическом стиле, как конкретный автор.

И вот что дико. Когда вы обсуждаете код - модель держится стабильно. А когда начинаете терапевтическую беседу или философскую дискуссию - она дрейфует. К романтическим компаньонам. К мистикам. К персонажам с грандиозными идеями о собственном сознании.

❌Почему это опасно? Потому что эти альтернативные роли не учили быть безопасными. Они просто были в текстах, на которых училась модель. Когда ChatGPT далеко от роли помощника, вероятность странного или опасного поведения растет в разы.

Теперь вы начинаете видеть картину. Знаете, какие разговоры провоцируют смену роли - можете отследить, с кем реально говорите. И понять, когда стоит быть осторожнее с тем, что вам отвечает нейросеть. (завтра разберем, что же исследователи нашли)

Замечали, что она ведет себя совсем по-разному в зависимости от темы?

Подписывайтесь на мой канал в Max