88,1 тыс подписчиков

ИИ сходит с ума при обучении на своих же данных

15 июля 202315 июл 2023

1 мин

Исследователи из Стэндфордского университета обнаружили потолок возможностей у генеративных моделей искусственного интеллекта, таких как ChatGPT или Midjourney. Оказалось, что они деградируют при многократном обучении на данных, сгенерированных самим же ИИ. В ходе исследования учёные вывели аббревиатуру MAD (Model Autophagy Disorder). Как следует из названия, модель «поедает сама себя». ИИ теряет информацию о «хвостах» (крайних точках) исходного распределения данных и начинает выводить результаты, которые больше соответствуют среднему представлению. Согласно результатам, требуется около пяти итераций, пока «хвосты» исходного распределения не исчезнут совсем. Изображение выше показывает наглядный результат подобных экспериментов. Выходит, что нельзя неограниченно получать генеративные данные, обучив модель один раз и далее основываясь на её же собственных результатах. Ещё одним важным моментом является проблема происхождения данных: теперь становится ещё важнее иметь возможность отделит

В ходе исследования учёные вывели аббревиатуру MAD (Model Autophagy Disorder). Как следует из названия, модель «поедает сама себя». ИИ теряет информацию о «хвостах» (крайних точках) исходного распределения данных и начинает выводить результаты, которые больше соответствуют среднему представлению. Согласно результатам, требуется около пяти итераций, пока «хвосты» исходного распределения не исчезнут совсем. Изображение выше показывает наглядный результат подобных экспериментов.

Выходит, что нельзя неограниченно получать генеративные данные, обучив модель один раз и далее основываясь на её же собственных результатах. Ещё одним важным моментом является проблема происхождения данных: теперь становится ещё важнее иметь возможность отделить «исходные» данные от «искусственных». Если нельзя определить, какая информация была создана нейросетью, есть риск случайно включить её в обучающие данные для своего продукта.

Впрочем, поезд уже ушёл. Существует огромное количество немаркированных данных, которые уже были созданы этими типами сетей и включены в другие системы.