Добавить в корзинуПозвонить
Найти в Дзене
HR с Бабушкиным

ИИ нанимает себе подобных: как алгоритмы найма на основе ИИ дискриминируют людей

Читали истории, как ИИ некорректно отбирает кандидатов? Теперь научное - академическое исследование на эту тему Телеграм канал HR-аналитики | НАШ КАНАЛ В VK | Мы в MAX Языковые модели, оценивающие резюме, систематически предпочитают тексты, написанные такой же моделью, — даже если человеческое резюме объективно лучше. А вы уже сталкивались с таким в практике? Университет Мэриленда, Национальный университет Сингапура, Университет штата Огайо — 2025 (февраль 2026, arXiv) Correspondence experiment (аналог аудита найма Бертрана и Муллайнатана). Каждому резюме создавались «двойники» от разных LLM — только резюмирующий блок менялся, остальное оставалось идентичным. Модели попарно сравнивали резюме и выбирали «лучшее». Оценка велась по двум метрикам справедливости: statistical parity и equal opportunity. 2 245 настоящих человеческих резюме с LiveCareer.com (написаны до эпохи генеративного ИИ). Тестировались 9 моделей: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, LLaMA 3.2-3B, LLaMA
Оглавление

Читали истории, как ИИ некорректно отбирает кандидатов? Теперь научное - академическое исследование на эту тему

ИИ нанимает себе подобных: как LLM-рекрутёры дискриминируют людей

Телеграм канал HR-аналитики | НАШ КАНАЛ В VK | Мы в MAX

Языковые модели, оценивающие резюме, систематически предпочитают тексты, написанные такой же моделью, — даже если человеческое резюме объективно лучше.

А вы уже сталкивались с таким в практике?

Авторы и год:

Университет Мэриленда, Национальный университет Сингапура, Университет штата Огайо — 2025 (февраль 2026, arXiv)

Метод:

Correspondence experiment (аналог аудита найма Бертрана и Муллайнатана). Каждому резюме создавались «двойники» от разных LLM — только резюмирующий блок менялся, остальное оставалось идентичным. Модели попарно сравнивали резюме и выбирали «лучшее». Оценка велась по двум метрикам справедливости: statistical parity и equal opportunity.

Выборка:

2 245 настоящих человеческих резюме с LiveCareer.com (написаны до эпохи генеративного ИИ). Тестировались 9 моделей: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, LLaMA 3.2-3B, LLaMA 3.2-1B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3. 24 профессиональные категории.

Результаты — цифры:

→ LLM vs. Человек (Statistical Parity): 8 из 9 моделей предпочитают собственный текст. GPT-4o — на 97,6% чаще выбирает свой вариант; LLaMA 3.3-70B — 96,3%; DeepSeek-V3 — 95,5%

→ LLM vs. Человек (Equal Opportunity, контроль качества): предвзятость сохраняется даже при сопоставимом качестве. GPT-4o — 81,9%; LLaMA 3.3-70B — 78,9%; Qwen-2.5-72B — 78%; DeepSeek-V3 — 71,6%; Mistral-7B — 28%

→ LLM vs. LLM: DeepSeek-V3 предпочитает себя перед LLaMA на 69%, перед GPT-4o на 28%. GPT-4o и LLaMA — непоследовательны

→ Симуляция найма (24 профессии, 30 прогонов каждая): кандидат с резюме от той же LLM, что используется для отбора, попадает в шортлист на 23–60% чаще человека с равной квалификацией. Разрыв максимален в продажах и бухгалтерии, минимален в сельском хозяйстве и автомобильной сфере

→ Митигация: system prompt снижает предвзятость на 17–62% в относительном выражении; ансамблевое голосование (большая модель + две маленькие с низкой self-recognition) — более чем на 50% у всех трёх протестированных моделей

Выводы:

Предвзятость возникает из способности модели «узнавать» собственный стиль текста. Это новый тип алгоритмической дискриминации — не по полу или расе, а по тому, каким ИИ-инструментом пользовался кандидат. При неравном доступе к «правильным» моделям эффект будет воспроизводить и усугублять социальное неравенство. Действующие регуляторные рамки AI fairness этот риск не покрывают.

Телеграм канал HR-аналитики | НАШ КАНАЛ В VK | Мы в MAX