Обучение систем искусственного интеллекта на основе синтетических данных может иметь негативные последствия.
Исследователи обнаружили, что обучение последовательных поколений моделей генеративного искусственного интеллекта на синтетических данных приводит к саморазрушающим циклам обратной связи.
Модели генеративного искусственного интеллекта (ИИ), такие как GPT-4o от OpenAI или Stable Diffusion от Stability AI, на удивление способны создавать новые тексты, код, изображения и видео.
Однако для их обучения требуются такие огромные объемы данных, что разработчики уже сталкиваются с ограничениями в поставках и вскоре могут полностью исчерпать ресурсы для обучения.
На фоне дефицита данных использование синтетических данных для обучения будущих поколений моделей ИИ может показаться крупным технологиям привлекательным вариантом по ряду причин, в том числе: данные, синтезированные ИИ, дешевле реальных и практически безграничны с точки зрения предложения; это создает меньше рисков для конфиденциальности (как в случае с медицинскими данными); а в некоторых случаях синтетические данные могут даже повысить производительность ИИ.
Однако недавняя работа группы цифровой обработки сигналов Университета Райса показала, что набор синтетических данных может оказать значительное негативное влияние на будущие итерации генеративных моделей ИИ.
"Проблемы возникают, когда эта синтетическая обработка данных неизбежно повторяется, образуя своего рода петлю обратной связи - то, что мы называем аутофагическим или "самопоглощающим" циклом", - сказал Ричард Баранюк, профессор электротехники и вычислительной техники Rice C. Сидни Беррус.
"Наша группа много работала над подобными циклами обратной связи, и плохая новость заключается в том, что даже после нескольких поколений такого обучения новые модели могут быть непоправимо повреждены. Некоторые назвали это "крахом модели", совсем недавно коллеги в этой области в контексте больших языковых моделей (LLM). Мы, однако, считаем термин "Модельное аутофагическое расстройство" (MAD) более подходящим по аналогии с коровьим бешенством."
Коровье бешенство - смертельное нейродегенеративное заболевание, поражающее коров и имеющее аналог у человека, вызванное употреблением зараженного мяса. Крупная вспышка в 1980-90-х годах привлекла внимание к тому факту, что коровье бешенство распространилось в результате практики кормления коров переработанными остатками их забитых собратьев - отсюда термин "аутофагия", от греческого auto-, что означает "сам", и phagy - "есть".
"Мы изложили наши выводы о безумии в документе, представленном в мае на Международной конференции по репрезентациям обучения (ICLR)", - сказал Баранюк.
Исследование под названием "Генеративные модели самопотребления сходят с УМА" является первой рецензируемой работой по аутофагии ИИ и фокусируется на генеративных моделях изображений, таких как популярные DALL · E3, Midjourney и Stable Diffusion.
"Мы решили поработать над визуальными моделями ИИ, чтобы лучше подчеркнуть недостатки аутофагического обучения, но те же проблемы с коровьим бешенством возникают и с LLM, на что указывали другие группы", - сказал Баранюк.
Интернет обычно является источником обучающих наборов данных генеративных моделей ИИ, поэтому, поскольку синтетические данные распространяются онлайн, с каждым новым поколением модели, вероятно, будут возникать циклы самопотребления.
Чтобы получить представление о различных сценариях того, как это может произойти, Баранюк и его команда изучили три варианта самозанятых циклов обучения, разработанных для обеспечения реалистичного представления о том, как реальные и синтетические данные объединяются в обучающие наборы данных для генеративных моделей: полностью синтетический цикл - последовательные поколения генеративной модели получали полностью синтетический рацион данных, взятый из выходных данных предыдущих поколений.
Цикл синтетического расширения - обучающий набор данных для каждого поколения модели включал комбинацию синтетических данных, отобранных из предыдущих поколений, и фиксированный набор реальных обучающих данных.
цикл свежих данных - каждое поколение модели обучается на сочетании синтетических данных предыдущих поколений и свежего набора реальных обучающих данных.
Постепенные повторения циклов показали, что со временем и в отсутствие достаточного количества свежих реальных данных модели будут генерировать все более искаженные результаты, лишенные либо качества, либо разнообразия, либо того и другого вместе. Другими словами, чем больше свежих данных, тем здоровее ИИ.
Параллельные сравнения наборов данных изображений, полученных в результате последовательных поколений модели, рисуют жуткую картину потенциального будущего искусственного интеллекта.
Наборы данных, состоящие из человеческих лиц, все чаще покрываются сетчатыми шрамами - то, что авторы называют "генеративными артефактами", - или все больше и больше становятся похожими на одного и того же человека. Наборы данных, состоящие из чисел, превращаются в неразборчивые каракули.
"Наш теоретический и эмпирический анализ позволил нам экстраполировать то, что может произойти, когда генеративные модели станут повсеместными, и обучать будущие модели самопоглощающим циклам", - сказал Баранюк.
"Некоторые последствия очевидны: без достаточного количества свежих реальных данных будущие генеративные модели обречены на безумие".
Чтобы сделать эти симуляции еще более реалистичными, исследователи ввели параметр смещения выборки для учета "выбора вишенки" - тенденции пользователей отдавать предпочтение качеству данных, а не разнообразию, то есть отказываться от разнообразия типов изображений и текстов в наборе данных ради изображений или текстов, которые хорошо выглядят или звучат.
Стимулом для выбора вишенки является то, что качество данных сохраняется на протяжении большего числа итераций модели, но это происходит за счет еще более резкого снижения разнообразия.
"Один из сценариев конца света заключается в том, что если оставить MAD неконтролируемым на протяжении многих поколений, он может отравить качество данных и разнообразие всего Интернета", - сказал Баранюк.
"Если не считать этого, кажется неизбежным, что невидимые на данный момент непреднамеренные последствия аутофагии ИИ возникнут даже в ближайшей перспективе".
Помимо Баранюка, авторами исследования являются аспиранты Райс Сина Алемохаммад; Хосуэ Каско-Родригес; Ахмед Имтиаз Хумаюн; Хоссейн Бабаи; выпускник доктора философии Райс Лоренцо Лузи; выпускник доктора философии Райс и нынешний аспирант Стэнфорда Дэниел Лежен; и аспирант Саймонс Али Сиахкухи.
Исследование было поддержано Национальным научным фондом, Управлением военно-морских исследований, Управлением научных исследований ВВС и Министерством энергетики.