🤖 Теневая сторона ИИ 😱👉 В гигантской базе CommonPool для обучения популярных ИИ-генераторов изображений содержатся миллиарды образцов персональных данных В открытом наборе данных для обучения нейросетей обнаружены сотни миллионов изображений паспортов, кредитных карт и другой конфиденциальной информации Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII). Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено