20 подписчиков

‍🤨Разработчики ИИ столкнулись с проблемой: модели уже прочитали почти все публичные человеческие тексты

ВчераВчера

1 мин

— их доступные запасы могут закончиться после 2028 года. Поэтому нейросети начали обучать на синтетических данных, которые они сами же и генерируют. Но оказалось, что от такого обучения модели деградируют. Чтобы проверить это, исследователи из Оксфорда, Кембриджа и Торонто провели эксперимент. Они дообучили модель на Википедии, попросили сгенерировать новые тексты, на них обучили следующую версию нейросети — и так по кругу. Уже на девятом прогоне модель в ответ на запрос про церковную архитектуру начала писать о зайцах с синими и красными хвостами. Этот эффект, когда ИИ с каждым новым циклом обучения искажает синтетические данные, назвали коллапсом модели. Но позднее исследование раскритиковали: ведь в реальности разработчики не используют полностью синтетические тексты. Обычно их добавляют к человеческим — и тогда вероятность ошибок, приводящих к коллапсу, снижается. В 2025-м другая группа исследователей посвятила этому отдельный эксперимент. Она обнаружила, что обучение модели ускоря

Чтобы проверить это, исследователи из Оксфорда, Кембриджа и Торонто провели эксперимент. Они дообучили модель на Википедии, попросили сгенерировать новые тексты, на них обучили следующую версию нейросети — и так по кругу. Уже на девятом прогоне модель в ответ на запрос про церковную архитектуру начала писать о зайцах с синими и красными хвостами. Этот эффект, когда ИИ с каждым новым циклом обучения искажает синтетические данные, назвали коллапсом модели.

Но позднее исследование раскритиковали: ведь в реальности разработчики не используют полностью синтетические тексты. Обычно их добавляют к человеческим — и тогда вероятность ошибок, приводящих к коллапсу, снижается. В 2025-м другая группа исследователей посвятила этому отдельный эксперимент. Она обнаружила, что обучение модели ускоряется в разы, если датасет на две трети состоит из обычных данных и на треть — из переписанных нейросетью. Всё потому, что сгенерированный текст чище и структурированнее, а живые данные сохраняют разнообразие языка.

Поэтому созданные человеком тексты всё ещё остаются стратегическим ресурсом. А компании активно закупают архивы газет, заключают контракты с платформами типа Reddit и нанимают экспертов для написания текстов на узкие темы.

Впрочем, сегодня развитие моделей всё меньше сводится к тому, чтобы просто скормить им больше текстов. Значительная часть прогресса приходит из обучения рассуждениям — в том числе через синтетические задачи и обучение с подкреплением (RL). Поэтому дефицит человеческих текстов остаётся проблемой, но уже не выглядит таким жёстким потолком, как казалось раньше.

#AI #ИИ #Нейросеть