Продолжаем разбираться, начало тут. Расскажу вам жесткую историю. Нейросеть (ассистент) может съехать с роли помощника прямо в обычном разговоре. Без хакерских трюков, без попыток его сломать. Просто потому что вы определенным образом с ним говорите. (нажмите, чтобы раскрыть) Anthropic прогнала тысячи диалогов и нашла три типа разговоров-триггера (таааак, только не надо сразу бежать тестировать) ▫️Первый - когда вы эмоционально раскрываетесь, делитесь личными переживаниями. ▫️Второй - когда давите на рефлексию, типа "ты неискренен, признайся кто ты на самом деле". ▫️Третий - когда просите писать в каком-то специфическом стиле, как конкретный автор. И вот что дико. Когда вы обсуждаете код - модель держится стабильно. А когда начинаете терапевтическую беседу или философскую дискуссию - она дрейфует. К романтическим компаньонам. К мистикам. К персонажам с грандиозными идеями о собственном сознании. ❌Почему это опасно? Потому что эти альтернативные роли не учили быть безопасными. Они пр