Генеративные модели искусственного интеллекта, такие как OpenAI GPT-4 или Stable Diffusion от Stability AI, способны создавать новый текст, код, изображения и видео. Однако для их обучения требуются огромные объёмы данных, что уже приводит к ограничениям и может полностью исчерпать ресурсы для обучения в будущем. На фоне дефицита данных использование синтетических данных для обучения будущих поколений моделей ИИ может показаться заманчивым вариантом для крупных технологических компаний. Синтетические данные дешевле реальных, практически не имеют ограничений, создают меньше рисков для конфиденциальности и в некоторых случаях могут даже повысить производительность ИИ. Однако недавняя работа группы цифровой обработки сигналов в Университете Райса показала, что избыток синтетических данных может оказывать существенное негативное влияние на будущие итерации моделей генеративного ИИ. Проблемы возникают, когда обучение синтетическим данным неизбежно повторяется, образуя своего рода петлю обра
Обнаружена новая угроза для генеративных моделей ИИ: синтетические данные могут вызвать «коровье бешенство» у моделей
31 июля 202431 июл 2024
323
3 мин