Выводы Университета Райса показывают, что повторяющееся обучение синтетическим данным может привести к "Модельному расстройству аутофагии", ухудшающему качество генеративных моделей ИИ. Постоянная зависимость от синтетических данных без свежих исходных данных может обречь будущие модели ИИ на неэффективность и сокращение разнообразия.
Генеративные модели искусственного интеллекта (ИИ), такие как GPT-4o от OpenAI или Stable Diffusion от Stable Diffusion от ИИ, превосходны в создании новых текстов, кода, изображений и видео. Однако для обучения этим моделям требуются огромные объемы данных, и разработчики уже борются с ограничениями в поставках и вскоре могут полностью исчерпать ресурсы для обучения.
Из-за нехватки данных использование синтетических данных для обучения будущих поколений моделей искусственного интеллекта может показаться крупным технологиям привлекательным вариантом по ряду причин. Данные, синтезированные ИИ, дешевле реальных и практически безграничны с точки зрения предложения, они создают меньше рисков для конфиденциальности (как в случае с медицинскими данными), а в некоторых случаях синтетические данные могут даже повысить производительность ИИ.
Однако недавняя работа группы цифровой обработки сигналов Университета Райса показала, что набор синтетических данных может оказать значительное негативное влияние на будущие итерации генеративных моделей ИИ.
Риски аутофагического обучения
“Проблемы возникают, когда эта обработка синтетических данных неизбежно повторяется, образуя своего рода петлю обратной связи - то, что мы называем аутофагическим или ”самопоглощающим" циклом", - сказал Ричард Баранюк, профессор электротехники и вычислительной техники Rice C. Sidney Burrus. “Наша группа много работала над подобными циклами обратной связи, и плохая новость заключается в том, что даже после нескольких поколений такого обучения новые модели могут быть непоправимо повреждены. Некоторые назвали это ‘крахом модели’ ⎯ совсем недавно коллеги в этой области в контексте больших языковых моделей (LLM). Мы, однако, находим термин "Модельное аутофагическое расстройство" (MAD) более подходящим по аналогии с коровьим бешенством.”
Коровье бешенство - смертельное нейродегенеративное заболевание, поражающее коров и имеющее аналог у человека, вызванное употреблением зараженного мяса. Крупная вспышка в 1980-90-х годах привлекла внимание к тому факту, что коровье бешенство распространилось в результате практики кормления коров переработанными остатками их забитых собратьев ⎯ отсюда термин “аутофагия", от греческого auto-, что означает “сам”, и phagy ⎯ ”есть".
“Мы зафиксировали наши выводы о безумии в документе, представленном в мае на Международной конференции по репрезентациям обучения (ICLR)”, - сказал Баранюк.
Исследование под названием “Самопоглощающие генеративные модели сходят с УМА” является первой рецензируемой работой по аутофагии ИИ и фокусируется на генеративных моделях изображений, таких как популярные DALL · E3, Midjourney и Stable Diffusion.
Влияние циклов обучения на модели ИИ
“Мы решили работать над визуальными моделями ИИ, чтобы лучше подчеркнуть недостатки аутофагического обучения, но те же проблемы с коровьим бешенством возникают и с LLM, на что указывали другие группы”, - сказал Баранюк.
Интернет обычно является источником обучающих наборов данных генеративных моделей ИИ, поэтому, поскольку синтетические данные распространяются онлайн, циклы самопотребления, вероятно, будут возникать с каждым новым поколением модели. Чтобы получить представление о различных сценариях того, как это может произойти, Баранюк и его команда изучили три варианта самозатратных циклов обучения, разработанных для обеспечения реалистичного представления о том, как реальные и синтетические данные объединяются в обучающие наборы данных для генеративных моделей:
- полностью синтетический цикл ⎯ Последующие поколения генеративной модели питались полностью синтетическими данными, взятыми из выходных данных предыдущих поколений.
- цикл синтетического расширения ⎯ Обучающий набор данных для каждого поколения модели включал комбинацию синтетических данных, отобранных из предыдущих поколений, и фиксированный набор реальных обучающих данных.
- цикл обновления данных ⎯ Каждое поколение модели обучается на смеси синтетических данных предыдущих поколений и нового набора реальных обучающих данных.
Постепенные повторения циклов показали, что со временем и в отсутствие достаточного количества свежих реальных данных модели будут генерировать все более искаженные результаты, лишенные либо качества, либо разнообразия, либо того и другого вместе. Другими словами, чем больше свежих данных, тем здоровее ИИ.
Последствия и будущее генеративного ИИ
Параллельные сравнения наборов данных изображений, полученных в результате последовательных поколений модели, рисуют жуткую картину потенциального будущего ИИ. Наборы данных, состоящие из человеческих лиц, все чаще покрываются сетчатыми шрамами - то, что авторы называют “генеративными артефактами”, - или все больше и больше становятся похожими на одного и того же человека. Наборы данных, состоящие из чисел, превращаются в неразборчивые каракули.
“Наш теоретический и эмпирический анализ позволил нам экстраполировать то, что может произойти по мере того, как генеративные модели станут повсеместными, и обучать будущие модели самопоглощающим циклам”, - сказал Баранюк. “Некоторые последствия очевидны: без достаточного количества свежих реальных данных будущие генеративные модели обречены на безумие”.
Чтобы сделать эти симуляции еще более реалистичными, исследователи ввели параметр смещения выборки для учета “выбора вишенки” ⎯ тенденции пользователей отдавать предпочтение качеству данных, а не разнообразию, т. Е. Отказываться от разнообразия типов изображений и текстов в наборе данных ради изображений или текстов, которые хорошо выглядят или звучат. Стимулом для выбора вишенки является то, что качество данных сохраняется на протяжении большего числа итераций модели, но это происходит за счет еще более резкого снижения разнообразия.
“Один из сценариев конца света заключается в том, что если оставить MAD неконтролируемым на протяжении многих поколений, он может отравить качество данных и разнообразие всего Интернета”, - сказал Баранюк. “Если не считать этого, кажется неизбежным, что невидимые на данный момент непреднамеренные последствия аутофагии ИИ возникнут даже в ближайшей перспективе”.
Ссылка: “Самопоглощающие генеративные модели сходят с УМА” Сина Алемохаммад, Хосуэ Каско-Родригес, Лоренцо Лузи, Ахмед Имтиаз Хумаюн, Хоссейн Бабаи, Даниэль Лежен, Али Сиахкухи и Ричард Баранюк, 8 мая 2024 г., Международная конференция по обучающим представлениям (ICLR), 2024.
Помимо Баранюка, авторами исследования являются аспиранты Райс Сина Алемохаммад; Джозуэ Каско-Родригес; Ахмед Имтиаз Хумаюн; Хоссейн Бабаи; выпускник доктора философии Райс Лоренцо Лузи; выпускник доктора философии Райс и нынешний аспирант Стэнфорда Дэниел Лежен; и аспирант Саймонс Али Сиахкухи.
Исследование проводилось при поддержке Национального научного фонда, Управления военно-морских исследований, Управления научных исследований ВВС и Министерства энергетики.