В эпоху искусственного интеллекта и машинного обучения вопросы качества данных становятся всё более актуальными. Недавнее исследование, опубликованное в работе "The Curse of Recursion: Training on Generated DataMakes Models Forget", ставит под сомнение привычные методы дообучения языковых моделей. Главный вывод работы — использование сгенерированных данных для повторного обучения может негативно сказаться на производительности модели, вызывая так называемое «проклятие рекурсии». В контексте исследования проклятие рекурсии означает, что обучение модели на данных, которые сама модель ранее сгенерировала, приводит к ухудшению её качества. Этот эффект можно сравнить с игрой в «испорченный телефон»: каждый новый этап обучения удаляет модель от оригинального качества и точности. Модели машинного обучения, такие как GPT, обучаются на огромных наборах данных, собранных из реального мира. Когда вместо оригинальных данных используются сгенерированные моделью тексты, возникает несколько проблем:
Проклятие рекурсии: как обучение на сгенерированных данных может заставить модели «забывать»
7 декабря 20247 дек 2024
7
2 мин