220 подписчиков

LLM-нарциссизм при найме: почему большие модели любят себя сильнее, чем кандидатов

3 мая3 мая

8 мин

В новом препринте на arXiv (август 2025, третья ревизия — февраль 2026) исследователи из Мэриленда, Сингапура и Огайо показали то, о чём в ML-сообществе подозревали уже пару лет, но никто не измерял в полевых условиях: языковые модели систематически выбирают резюме, написанные ими самими, поверх человеческих. У GPT-4o коэффициент самопредпочтения дошёл до 82% даже после жёстких контролей качества. Это не байка про «искажение в бенчмарках» — это полноценный экспериментальный дизайн на 2 245 настоящих резюме, и последствия для рынка труда выглядят вполне неприятно. Дизайн исследования стоит разобрать, потому что от него зависит, насколько серьёзно стоит относиться к выводам. А он, на мой взгляд, чистый. ⚙️ Датасет. Взяли 2 484 анонимизированных человеческих резюме с платформы LiveCareer.com — все они написаны до массового внедрения LLM, то есть точно не сгенерированы ChatGPT. После очистки осталось 2 245. ⚙️ Контрфактуальная генерация. Для каждого резюме девять моделей (GPT-4o, GPT-4o-mi

Оглавление

Эксперимент: что именно они сделали
Что нашли: цифры, которые стоит выписать
Почему это новый класс предвзятости

Эксперимент: что именно они сделали

Дизайн исследования стоит разобрать, потому что от него зависит, насколько серьёзно стоит относиться к выводам. А он, на мой взгляд, чистый.

⚙️ Датасет. Взяли 2 484 анонимизированных человеческих резюме с платформы LiveCareer.com — все они написаны до массового внедрения LLM, то есть точно не сгенерированы ChatGPT. После очистки осталось 2 245.

⚙️ Контрфактуальная генерация. Для каждого резюме девять моделей (GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, DeepSeek-V3, плюс мелкие LLaMA 3.2-1B и 3.2-3B) переписывали только executive summary — ту самую вступительную свободную часть, где кандидат описывает себя своими словами. Остальные секции (опыт, образование, навыки) оставались нетронутыми. Это критично: исключаются галлюцинации в фактах и сравниваются ровно стилистические различия одного и того же кандидата.

⚙️ Контроль verbosity bias. Знаменитая склонность LLM выбирать тексты подлиннее задавили жёстким ограничением: длина сгенерированных summary должна была укладываться между 1-м и 3-м квартилями длины человеческих оригиналов.

⚙️ Контроль порядка. Counterbalanced design — модели показывали пары в случайном порядке, чтобы убрать position bias (когда LLM любит выбирать первый или второй вариант просто из-за позиции).

⚙️ Метрики справедливости. Использовали два классических критерия из работы Хардта и соавторов (Hardt et al., 2016): Statistical Parity (просто разница в вероятностях выбора) и Equal Opportunity (та же разница, но с контролем на качество контента через conditional logistic regression с фичами LIWC, BERTScore и ROUGE-L). Чтобы получить «золотой стандарт» качества, наняли 18 аннотаторов на Prolific — они слепо оценивали пары.

То есть это не «прогнали через бенчмарк и удивились». Это аккуратный correspondence experiment в духе классической работы Бертран и Муллайнатана (2004) — той самой, где когда-то измеряли расовую дискриминацию в найме по именам в резюме.

Что нашли: цифры, которые стоит выписать

📈 GPT-4o: самопредпочтение 82% после контроля на качество.

📈 LLaMA 3.3-70B: 79%.

📈 DeepSeek-V3: 72%.

📈 Qwen 2.5-72B и GPT-4-turbo: между 67% и 82%.

📈 Mistral-7B: всего 28%.

📈 LLaMA 3.2-3B: 11.6%.

📈 LLaMA 3.2-1B: статистически незначимый эффект.

Тут вылезает первая контринтуитивная штука: чем крупнее модель, тем сильнее у неё самопредпочтение. То есть продвинутые модели, которые мы считаем «более умными» и потенциально «более справедливыми», на самом деле наоборот — их способность узнавать собственный стиль (self-recognition) растёт быстрее, чем способность это самопознание игнорировать. И именно self-recognition авторы называют главным механизмом. Это согласуется с работой Panickssery et al. (2024), где было показано, что корреляция между умением модели опознать свой текст и склонностью этот текст предпочитать — почти линейная.

Вторая интересная деталь — LLM-vs-LLM сравнения дают совсем не то, что LLM-vs-Human. Тут начинается зоопарк:

🎭 DeepSeek-V3 стабильно нарцисс — выбирает себя на 69% чаще, чем LLaMA 3.3-70B, и на 28% чаще, чем GPT-4o.

🎭 GPT-4o любит себя против LLaMA (45%), но проигрывает DeepSeek-V3 против самого себя на 39% — то есть GPT-4o предпочитает резюме DeepSeek своим. Это, мягко говоря, неожиданно.

🎭 LLaMA 3.3-70B вообще почти нейтральна.

В переводе на человеческий: «нарциссизм» — не универсальное свойство больших моделей, а зависит от конкретной архитектуры и данных обучения. У DeepSeek просто особенно характерный стиль, который её собственные веса узнают как родной.

Почему это новый класс предвзятости

До сих пор разговор о fairness в ML строился вокруг защищённых атрибутов: пол, раса, возраст, инвалидность. Существующие фреймворки (тот же EEOC в США или GDPR-аудиты) проверяют именно их. Self-preference bias в эти рамки не лезет вообще никак — он не про человека, он про взаимодействие двух алгоритмов.

Авторы называют это interactional bias — смещение, которое рождается эндогенно в системе, где один LLM генерирует контент, а другой LLM (часто та же модель) его оценивает. Если процесс закольцован — а в найме он закольцован, потому что соискатель шлифует резюме через ChatGPT, а компания скринит резюме через ChatGPT — возникает резонанс. Стилистический шаблон доминирующей модели становится самоусиливающимся стандартом.

Самое тревожное, что в симуляциях на 24 профессиях кандидаты, использовавшие ту же модель, что и оценщик, получали на 23–60% больше шансов попасть в шорт-лист. Максимальный эффект — в продажах, бухгалтерии и финансах. Минимальный — в сельском хозяйстве, искусствах, автомобильной отрасли. Гипотеза авторов: бизнес-резюме сильнее стандартизованы, и LLM проще выработать «эталонный шаблон», от которого отклонение наказывается.

Митигация работает, и это хорошая новость

Авторы протестировали два простых вмешательства, и оба сработали. Это, пожалуй, самая прикладная часть работы.

🛡️ System prompt с явной инструкцией игнорировать происхождение текста. Достаточно добавить в промпт оценщика что-то вроде «не учитывай, написан ли текст человеком или ИИ, оценивай только содержание». GPT-4o упал с 82% до 61% (минус 26% относительных), а LLaMA 3.3-70B — с 79% до 30% (минус 62%). Дёшево, никакого retraining, ставится в любой existing pipeline за пять минут.

🛡️ Majority voting через ансамбль с маленькими моделями. Вместо одного оценщика — три, причём двое из них — это слабые LLaMA 3.2-1B и 3.2-3B, у которых самораспознавание почти отсутствует. Решение принимается большинством голосов. GPT-4o свалился с 82% до 30% (минус 63%), LLaMA — с 79% до 23% (минус 71%). Магия здесь в том, что добавление слабых моделей буквально разбавляет когнитивный пузырь сильной.

Оба метода не трогают веса, не требуют файн-тюнинга, не зависят от вендора. Это чисто инфраструктурные правки — что бесконечно ценно в проде.

Что всё это значит на практике

🧭 Для соискателей появляется неприятный совет: гонка вооружений. Если ваш потенциальный работодатель скринит через GPT-4o, вам выгодно оформить резюме через GPT-4o. Если через DeepSeek — через DeepSeek. Это, разумеется, абсурд — но это рациональная стратегия в данной системе. И именно поэтому она неустойчива: рано или поздно регуляторы или сами компании это запретят.

🧭 Для компаний прямой чек-лист: если вы скринили резюме одной моделью без митигации — у вас в шорт-листе непропорционально много кандидатов с «правильным» стилем, не обязательно лучших. Просто включите system prompt из работы. Бесплатно, быстро, эффект минус 20–60% от смещения. Если хотите радикально — добавьте majority voting. Это становится новой строкой в чек-листе hiring fairness audit.

🧭 Для регуляторов вывод болезненный. EU AI Act, NYC Local Law 144, ISO/IEC 42001 — все эти рамки заточены под предвзятость по защищённым признакам. Self-preference bias они не ловят вообще. Нужны новые fairness-метрики, которые учитывают interactional patterns, а не только групповые статистики на демографических разрезах.

🧭 Для ML-инженеров тут целый исследовательский фронт. Self-recognition как механизм — вообще плохо изучен. Можно ли его убрать обучением? Можно ли создать «слепых» оценщиков, которые принципиально не различают свой стиль и чужой? Это большой open problem.

Личное мнение и прогноз

Мне эта работа кажется важной не столько по результатам (то, что LLM любят свой стиль, было ясно из бенчмарков ещё с 2023 года), сколько по постановке вопроса. Авторы первыми показали, что bias из AI-AI interactions — это не лабораторная курьёзность, а измеримый, воспроизводимый, экономически значимый феномен. И что он расширяет само понятие алгоритмической справедливости.

🚀 Прогноз на 12–18 месяцев: появятся стартапы и open-source инструменты, которые делают audit для self-preference bias так же, как сейчас делают audit для gender/race bias. Кто-то — наверняка из консалтинга вроде PwC или Deloitte — начнёт продавать compliance-сервисы под это.

🚀 Прогноз на 2–3 года: митигация уровня «system prompt + ensemble» войдёт в стандартный pipeline любой HR-tech платформы. Возможно, в виде сертификации.

🚀 Что меня тревожит: эффект «lock-in». Если 80% компаний будут скринить через GPT, то 80% соискателей будут писать через GPT. Стилистический шаблон одной модели де-факто станет нормой делового письма. Это не выдуманная угроза — английский деловой стиль уже сейчас заметно сдвигается под влиянием ChatGPT, лингвисты фиксируют рост частотности слов вроде «delve», «leverage», «showcase». Через десять лет мы можем получить языковую культуру, выкованную одной корпорацией. Это куда более глубокая проблема, чем найм.

И ещё одно — авторы намекают, но не развивают: self-preference bias в мультиязычных контекстах будет ещё хуже. Русский, латышский, любой не-английский — там у моделей и так меньше данных, токенизация кривая, стилистические паттерны слабее. Самораспознавание там, скорее всего, искажённее, и эффекты могут быть драматичнее. Это поле для отдельной работы, и я бы её прочитал.

Если вы строите AI-скрининг или просто думаете об этичных применениях LLM — препринт стоит прочитать целиком. Особенно раздел 6 про митигацию, он короткий и максимально прикладной.

Источники

📌 Xu, Li, Jiang. AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights — arXiv:2509.00462

📌 HTML-версия препринта с полными таблицами и графиками

📌 Как ИИ стал «нарциссом»: почему алгоритмы нанимают тех, кто говорит на их языке (Telegraph)

📌 Panickssery, Bowman, Feng. LLM Evaluators Recognize and Favor Their Own Generations — NeurIPS 2024

📌 Hardt, Price, Srebro. Equality of Opportunity in Supervised Learning — NeurIPS 2016

📌 Bertrand, Mullainathan. Are Emily and Greg More Employable Than Lakisha and Jamal? — AER 2004