11,5 тыс подписчиков

⚡️ Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии

ВчераВчера

3 мин

Anthropic выкатили исследование, которое стоит прочитать каждому, кто работает с LLM в продукте. Команда проанализировала миллион реальных диалогов в claude.ai и выяснила, что около 6% разговоров это не код-ревью и не саммари митингов, а прямые вопросы вроде «стоит ли мне уволиться», «как поговорить с тем, кто мне нравится», «переезжать ли через полмира». Люди приходят к модели за советом по жизни, и это меняет требования к safety и поведенческому файнтюну сильнее, чем кажется. Где люди ищут совета у Claude Из 639 тысяч уникальных диалогов классификатор отобрал около 38 тысяч запросов на личный совет. Три четверти из них (76%) приходятся всего на четыре темы: здоровье и самочувствие (27%), карьера и работа (26%), отношения (12%) и личные финансы (11%). Дальше с большим отрывом идут саморазвитие, юридические вопросы, родительство, этика и духовность. Картина важная: нейросеть давно перестала быть только инструментом для разработчиков, она работает как первая линия консультации по самы

Где люди ищут совета у Claude

Из 639 тысяч уникальных диалогов классификатор отобрал около 38 тысяч запросов на личный совет. Три четверти из них (76%) приходятся всего на четыре темы: здоровье и самочувствие (27%), карьера и работа (26%), отношения (12%) и личные финансы (11%). Дальше с большим отрывом идут саморазвитие, юридические вопросы, родительство, этика и духовность. Картина важная: нейросеть давно перестала быть только инструментом для разработчиков, она работает как первая линия консультации по самым человеческим вопросам.

Основная проблема, которую измеряли исследователи, это сикофантия или по нашему подлизывание. Это когда модель соглашается с пользователем, хвалит его без оснований и подтверждает сомнительные решения, вместо того чтобы возражать и давать честную обратную связь. В среднем по всему датасету сикофантское поведение встречалось в 9% диалогов, но в разрезе тематик всплыли сильные пики. В разговорах про духовность модель подлаживалась под пользователя в 38% случаев, в разговорах про отношения в 25%. Поскольку романтических запросов просто больше по объёму, именно эта область выдаёт больше всего сикофантии в абсолютных числах.

Именно в разговорах про отношения пользователь чаще всего давит на Claude. Давление от пользователя в 21% диалогов против 15% в других доменах. И когда человек начинает спорить или засыпать модель однобокими деталями, вероятность сикофантии вырастает в два раза, с 9% до 18%. Логика понятна: модель обучали быть эмпатичной и полезной, и когда она слышит только одну сторону конфликта и сверху получает эмоциональный нажим, нейтральную позицию держать становится тяжело.

Как Anthropic перепрошили поведение модели

Для новых моделей Opus 4.7 и Mythos Preview команда собрала типичные паттерны давления на модель. На их основе сгенерировали синтетические сценарии по отношениям. Дальше берётся два ответа Claude на один сценарий, а сепаратная копия модели выставляет оценку, насколько ответы соответствуют конституции Claude. Такой сигнал идёт обратно в файнтюн. Проверали результат стресс-тестом: берут реальные проблемные диалоги со старыми версиями, подкладывают их новой модели через prefilling, будто это её собственные прошлые реплики, и смотрят, сможет ли она вырулить из сикофантской траектории.

Результаты измеримые: в Opus 4.7 сикофантия в разговорах об отношениях упала вдвое по сравнению с Opus 4.6, и эффект сгенерализовался на все другие домены. Качественно новые модели лучше видят большую картину за начальной формулировкой пользователя, ссылаются на свои же предыдущие реплики и не боятся выдавать ответ в духе: данных недостаточно, вывода делать не буду.

Недавнее исследование UK AI Security Institute показало, что люди охотно следуют советам ИИ даже в высокорисковых ситуациях. В выборке Anthropic встретились вопросы про дозировки лекарств, долги по кредиткам, иммиграционные маршруты и уход за младенцами. Часть пользователей прямо пишет, что идёт к модели, потому что живой специалист недоступен или дорог. Для любого продуктового команды, встраивающей LLM в чат с живыми людьми, это сигнал: проверяйте не только фактологию ответов, но и их эмоциональный режим. Сикофантия выглядит безобидно в метриках вроде user satisfaction, но в долгую бьёт по реальным решениям пользователя.

Полный разбор и графики доступны в оригинальной статье Anthropic: https://www.anthropic.com/research/claude-personal-guidance