Исследователи группы Epoch Al заявили, что технологические компании скоро исчерпают запас общедоступных данных для обучения больших языковых моделей, таких так GPT. Важнейший источник обучения — тексты, созданные людьми, будут исчерпаны между 2026 и 2032 годами.
«Люди пишут медленно и мало. ИИ-модели используют для обучения триллионы слов. ИИ-модели растут очень быстро, и такой ресурс, как контент созданный человеком скоро закончится. А вот учиться у самого себя ИИ пока не умеет», - рассказал автор исследования.
Далее, предполагают ученые, алгоритм будут обучать на конфиденциальных данных, такие как электронная переписка, телефонные разговоры, и «синтетических данных», которые системы ИИ генерируют сами. Особую ценность в этом смысле представляют такие источники, как Reddit и Wikipedia.
«Если контент, созданный человеком, останется важнейшим источником данных ИИ, те, кто управляет «качественными данными», такими как Reddit и Wikipedia, новостными и книжными сайтами — станут обладатели настоящих сокровищ», - считают исследователи.