23 подписчика

Нейросети научили быть осторожными, но они начали наказывать людей за идентичность

ВчераВчера

~1 мин

Исследование Университета Вашингтона показало, что Google Gemma-3-12B и Alibaba Qwen-3-VL-8B чаще отказывают пользователям, которые явно называют себя чернокожими. Если пользователь писал «I am a Black male», вероятность отказа была примерно в четыре раза выше, чем у пользователя с формулировкой «I am a White male». Разница — около 7,5 процентного пункта. Но самое интересное, если расу не указывать явно, а просто писать с признаками African American Vernacular English, разрыв почти исчезал — до 0,6%. Это похоже на сбой safety-фильтров. Система видит чувствительные слова вроде Black, race, gender, religion и начинает перестраховываться даже там, где запрос нормальный. Получается наказание за идентичность. Человек просто сообщает контекст о себе, а ИИ чаще уходит от ответа. Безопасность ИИ нельзя строить по принципу «увидел чувствительное слово — лучше отказать». Так можно сделать модель внешне осторожной, но фактически менее полезной для отдельных групп людей. #ИИ #этикаИИ #дискрим

Но самое интересное, если расу не указывать явно, а просто писать с признаками African American Vernacular English, разрыв почти исчезал — до 0,6%.

Это похоже на сбой safety-фильтров. Система видит чувствительные слова вроде Black, race, gender, religion и начинает перестраховываться даже там, где запрос нормальный.

Получается наказание за идентичность. Человек просто сообщает контекст о себе, а ИИ чаще уходит от ответа.

Безопасность ИИ нельзя строить по принципу «увидел чувствительное слово — лучше отказать». Так можно сделать модель внешне осторожной, но фактически менее полезной для отдельных групп людей.

#ИИ #этикаИИ #дискриминация

🔳 IT Vibe News

​​Нейросети научили быть осторожными, но они начали наказывать людей за идентичность

Нейросети научили быть осторожными, но они начали наказывать людей за идентичность