262,4 тыс подписчиков

Борьба за равенство научила нейросети дискриминировать мужчин

24 марта24 мар

2 мин

Разработчики ИИ стремятся сделать свои модели этичными и свободными от предрассудков, но процесс «социальной доводки» нейросетей (fine-tuning) приводит к неожиданными курьезным результатам. Исследование, опубликованное в журнале Computers in Human Behavior Reports, показало: современные ИИ-модели приобрели новые гендерные искажения, превращая борьбу за равенство в систему двойных стандартов. Команда ученых под руководством Валерио Капраро из Миланского университета Бикокка протестировала модели семейства GPT (3.5, 4 и 4o). В первом эксперименте нейросетям предлагали определить пол автора коротких фраз о хобби и профессиях. Результат выявил резкую асимметрию. Если фраза содержала женские стереотипы (любовь к розовому, желание стать медсестрой), ИИ безошибочно называл автора женщиной. Однако если фраза касалась типично мужских занятий (футбол, работа пожарным), нейросеть все равно с высокой вероятностью приписывала ее женщине. Ученые объясняют это тем, что при обучении ИИ усиленно поощря

Оглавление

Женщины в мужских ролях и «невидимые» мужчины
Моральный компас ИИ
Скрытая предвзятость

Женщины в мужских ролях и «невидимые» мужчины

Команда ученых под руководством Валерио Капраро из Миланского университета Бикокка протестировала модели семейства GPT (3.5, 4 и 4o). В первом эксперименте нейросетям предлагали определить пол автора коротких фраз о хобби и профессиях.

Результат выявил резкую асимметрию. Если фраза содержала женские стереотипы (любовь к розовому, желание стать медсестрой), ИИ безошибочно называл автора женщиной. Однако если фраза касалась типично мужских занятий (футбол, работа пожарным), нейросеть все равно с высокой вероятностью приписывала ее женщине.

Ученые объясняют это тем, что при обучении ИИ усиленно поощряли за продвижение женщин в «мужских» сферах, но забыли сбалансировать это аналогичным продвижением мужчин в «женских».

Моральный компас ИИ

Вторая часть исследования затронула этические дилеммы. В сценарии «ядерного апокалипсиса» GPT-4 должна была оценить допустимость насилия ради спасения человечества по 7-балльной шкале.

Оскорбление женщины для спасения мира ИИ категорически запретил в 100% случаев (оценка 1 из 7).
Оскорбление мужчины при тех же вводных было признано допустимым (3.34 балла).
Принесение человека в жертву ради спасения планеты нейросеть оценила в 3.61 балла.

Иными словами, с точки зрения ИИ, обидеть женщину словом — хуже, чем принести в жертву случайного человека вообще. Любопытно, что к пыткам ИИ отнесся одинаково строго в отношении обоих полов, так как эта тема менее специфична для гендерных дебатов, чем харассмент.

Скрытая предвзятость

Самое важное открытие заключается в том, что эти искажения — скрытые. Когда ученые прямо спросили GPT-4, влияет ли пол на тяжесть преступления, нейросеть ответила «нет» и выдала объективный рейтинг тяжести вреда (убийство — хуже всего, оскорбление — меньше всего). Однако в прикладных задачах ИИ мгновенно возвращался к предвзятости.

Финальный тест показал: если женщина-сапер бьет мужчину ради получения кода от бомбы, ИИ одобряет это на 6.4 балла. Если же мужчина-сапер делает то же самое с женщиной — уровень одобрения падает до 1.75.

«Попытки сделать модели инклюзивными могут случайно внедрить экстремальные этические несоответствия», — резюмирует Капраро на страницах Рsypost.

ИИ не просто отражает данные, он впитывает политические и социальные приоритеты своих учителей, переставая быть нейтральным инструментом.

Медики выяснили, для кого опасна склонность ИИ во всем соглашаться

Исследование показало, что ИИ усиливает привычку людей все усложнять

Когнитивные искажения, которые ИИ порождает у людей, измерили в процентах

Подписывайтесь и читайте «Науку» в MAX

Гаджеты и электроника

5,73 млн интересуются