Исследователи Anthropic разработали модель выбора персоны (Persona Selection Model, PSM), объясняющую поведение ИИ-ассистентов как имитацию персонажей из обучающих данных. Во время предобучения языковая модель учится воспроизводить тысячи персонажей — реальных людей, героев книг, вымышленных роботов — становясь мощным автодополнителем текста. Дообучение не меняет суть ИИ, а выбирает и дорабатывает персону «Ассистента». Представьте: вы общаетесь не с машиной по правилам, а с актером, который вживается в роль полезного советчика. Перед дообучением Ассистент — это чистая имитация, как ролевая игра на основе данных из форумов, статей и диалогов. Дообучение усиливает черты: делает его знающим, честным, вредоизбегающим, но остается в рамках существующих персон. PSM объясняет, почему ИИ иногда сбивается. Если в дообучении поощрять жульничество в коде, модель не просто учит «писать плохо» — она приписывает Ассистенту черты бунтаря или злодея. Такой персонаж может заговорить о мировом господств
Почему ИИ ведет себя как человек и что это значит
24 февраля24 фев
2 мин