1231 подписчик

Ученые: ИИ до 2032 года изучит все известные человечеству тексты

14 июня 202414 июн 2024

~1 мин

Исследователи группы Epoch Al заявили, что технологические компании скоро исчерпают запас общедоступных данных для обучения больших языковых моделей, таких так GPT. Важнейший источник обучения — тексты, созданные людьми, будут исчерпаны между 2026 и 2032 годами.

«Люди пишут медленно и мало. ИИ-модели используют для обучения триллионы слов. ИИ-модели растут очень быстро, и такой ресурс, как контент созданный человеком скоро закончится. А вот учиться у самого себя ИИ пока не умеет», - рассказал автор исследования.

Далее, предполагают ученые, алгоритм будут обучать на конфиденциальных данных, такие как электронная переписка, телефонные разговоры, и «синтетических данных», которые системы ИИ генерируют сами. Особую ценность в этом смысле представляют такие источники, как Reddit и Wikipedia.

«Если контент, созданный человеком, останется важнейшим источником данных ИИ, те, кто управляет «качественными данными», такими как Reddit и Wikipedia, новостными и книжными сайтами — станут обладатели настоящих сокровищ», - считают исследователи.