В сети появляется все больше контента, сгенерированного с помощью искусственного интеллекта. Эксперты в области машинного обучения считают, что в дальнейшем ИИ-алгоритмы, которые тренировались на нем, а не на аутентичном материале, будут выдавать все менее качественные результаты.
Ученые опубликовали результаты исследования, благодаря которому обнаружили, что обучение, основанное на ИИ-контенте, вызывает необратимые дефекты в моделях.
Со временем ошибки в сгенерированных данных накапливаются и в конечном итоге заставляют модели все больше и больше искажать реальность. Постепенно их качество и точность будет падать, а вероятность ошибок и бессмыслицы — возрастать. Тем более что ИИ не умеет отличать правду от вымысла и начинает неверно истолковывать то, что считает правдивым.
Коллапс модели происходит достаточно быстро: они могут забыть большую часть исходных данных, на которых первоначально учились.
Исследователи, создавшие работу, обнаружили, что, даже если для обучения модели в последующих поколениях используется 10% исходных данных, полученных от человека, «крах модели все равно происходит, просто не так быстро».