Исследователи из группы Epoch предупреждают, что в ближайшие годы крупные языковые модели, такие как GPT, могут исчерпать значительную часть доступного человеческого контента в интернете. По их прогнозам, это произойдет между 2026 и 2032 годами из-за быстрого роста вычислительных мощностей.
Дефицит данных для обучения может замедлить развитие искусственного интеллекта и потребует изменения стратегии по сбору и использованию данных. Возможные решения включают использование синтетических или конфиденциальных наборов данных, которые будут генерироваться самими ИИ-системами. Однако подобные подходы сопряжены с рядом рисков, в том числе угрозой возникновения "коллапса модели" при обучении на собственном выходе.
По мнению экспертов, в будущем ценность человеческих данных из таких источников, как Википедия и Reddit, резко возрастет. Они станут своего рода "природным ресурсом" для продолжения развития искусственного интеллекта. Это может привести к новым этическим и правовым проблемам в сфере интеллектуальной собственности.
Ситуация требует поиска новых инновационных решений по эффективному использованию имеющихся и получению новых качественных наборов данных. От этого будет зависеть, сможет ли индустрия ИИ поддерживать текущие темпы роста.