Представьте, что крупная технологическая компания решает ускорить процесс найма и внедряет AI-рекрутер. Цель - отсеивать неподходящих кандидатов, чтобы HR-менеджеры тратили время только на «золотой остаток». Вот как на практике может произойти «отмывка»: Команда data-scientists идет в отдел кадров и просит данные за последние 5–10 лет: все резюме, которые приходили, и пометку, кого из этих людей взяли на работу. Какая проблема закрадывается на этом этапе?
Данные не нейтральны. Если компания исторически нанимала в основном мужчин (например, потому что основатель-мужчина считал, что «мужчины лучше кодить», или просто в пуле кандидатов было мало женщин из-за стереотипов в образовании), то в графе «Нанят» будет стоять «Да» напротив 90% мужских резюме и «Нет» напротив 90% женских. Машина не знает контекста. Она видит просто корреляцию: «Пол мужской» -> «Целевая переменная (был нанят) = 1». Модель машинного обучения начинает искать закономерности. Она превращает текст резюме в набор чисел (