Микрософт опубликовал классную работу про обучение на синтетических данных в случае распознавания лиц. Более того, датасет из 100 000 автоматически размеченных изображений лиц открыт для использования всеми исследователями.

Важность же в том, что на практике доказана возможность эффективного обучения на датасетах, в которых вообще нет персональных данных, а проблемы искажений выборки и разметки, о которых сломано столько копий (diversity и пр.) отсутствуют by design.

https://microsoft.github.io/FaceSynthetics/

О том, что синтетические данные в ML — большой тренд 2022, писал ещё в конце прошлого года; жаль, что редакторы Форбса ради кликабельности заменили заголовок на хайповый, но не отражающий суть текста.

https://www.forbes.ru/tekhnologii/444703-fejkovyj-mir-pocemu-tehnologia-dipfejkov-stanet-glavnoj-v-2022-godu

Около минуты

7 января 2022