200 тыс подписчиков

Обнаружена новая угроза для генеративных моделей ИИ: синтетические данные могут вызвать «коровье бешенство» у моделей

31 июля 202431 июл 2024

323

3 мин

Генеративные модели искусственного интеллекта, такие как OpenAI GPT-4 или Stable Diffusion от Stability AI, способны создавать новый текст, код, изображения и видео. Однако для их обучения требуются огромные объёмы данных, что уже приводит к ограничениям и может полностью исчерпать ресурсы для обучения в будущем. На фоне дефицита данных использование синтетических данных для обучения будущих поколений моделей ИИ может показаться заманчивым вариантом для крупных технологических компаний. Синтетические данные дешевле реальных, практически не имеют ограничений, создают меньше рисков для конфиденциальности и в некоторых случаях могут даже повысить производительность ИИ. Однако недавняя работа группы цифровой обработки сигналов в Университете Райса показала, что избыток синтетических данных может оказывать существенное негативное влияние на будущие итерации моделей генеративного ИИ. Проблемы возникают, когда обучение синтетическим данным неизбежно повторяется, образуя своего рода петлю обра

На фоне дефицита данных использование синтетических данных для обучения будущих поколений моделей ИИ может показаться заманчивым вариантом для крупных технологических компаний. Синтетические данные дешевле реальных, практически не имеют ограничений, создают меньше рисков для конфиденциальности и в некоторых случаях могут даже повысить производительность ИИ.

Однако недавняя работа группы цифровой обработки сигналов в Университете Райса показала, что избыток синтетических данных может оказывать существенное негативное влияние на будущие итерации моделей генеративного ИИ. Проблемы возникают, когда обучение синтетическим данным неизбежно повторяется, образуя своего рода петлю обратной связи — то, что исследователи называют «аутофагической» или «самопотребляющей» петлёй.

«Наша группа много работала над такими петлями обратной связи, и плохая новость заключается в том, что даже после нескольких поколений такого обучения новые модели могут быть непоправимо испорчены. Некоторые называют это "коллапсом модели", но мы считаем термин "расстройство аутофагии модели" (MAD) более подходящим, по аналогии с коровьим бешенством», — сказал Ричард Баранюк, профессор электротехники и вычислительной техники в Университете Райса.

Коровье бешенство — это смертельное нейродегенеративное заболевание, которое поражает коров и имеет человеческий эквивалент, вызываемый употреблением заражённого мяса. Крупная вспышка в 1980-90-х годах привлекла внимание к тому факту, что коровье бешенство распространилось в результате практики кормления коров переработанными остатками их забитых собратьев — отсюда и термин «аутофагия», от греческого auto-, что означает «сам», и phagy — «есть».

Исследование под названием «Самопотребляющие генеративные модели сходят с ума» (Self-Consuming Generative Models Go MAD) является первой рецензируемой работой по аутофагии ИИ и фокусируется на генеративных моделях изображений, таких как DALL·E 3, Midjourney и Stable Diffusion. Исследователи изучили три варианта самопотребляющих обучающих циклов, разработанных для предоставления реалистичного представления того, как реальные и синтетические данные объединяются в обучающие наборы данных для генеративных моделей.

Прогрессивные итерации циклов показали, что со временем и при отсутствии достаточного количества свежих реальных данных модели будут генерировать все более искажённые результаты, которым не хватает либо качества, либо разнообразия, либо и того, и другого. Параллельное сравнение наборов данных изображений, полученных в результате последовательных поколений модели, рисует жуткую картину потенциального будущего ИИ.

«Наши теоретические и эмпирические анализы позволили экстраполировать то, что может произойти, когда генеративные модели станут повсеместными и будут обучать будущие модели в самопотребляющих циклах. Некоторые последствия очевидны: без достаточного количества свежих реальных данных будущие генеративные модели обречены на безумие», — сказал Баранюк.

Чтобы сделать эти симуляции ещё более реалистичными, исследователи ввели параметр смещения выборки, учитывающий «избирательное отношение» — тенденцию пользователей отдавать предпочтение качеству данных, а не разнообразию. Стимул к выборочному подходу заключается в том, что качество данных сохраняется на протяжении большего числа итераций модели, но это достигается за счёт разнообразия типов изображений и текстов в наборе данных.

Исследование показывает, что для сохранения «здоровья» генеративных моделей ИИ необходимо обеспечивать их достаточным количеством свежих реальных данных, чтобы избежать «расстройства аутофагии модели».

Наука

7 млн интересуются