47 подписчиков
Что будет, когда нейросетям не на чем станет обучаться
В докладе айти-аналитиков Epoch AI сказано, что данные для обучения нейросетей могут закончиться до 2036 года. Крупнейшие модели — языковые — учатся на словах. Для каждой новой сборки нужны всё более объемные датасеты — хранилища символьного контента, который человек производит в гораздо меньшем количестве, чем сетки их поглощают.
Сейчас программисты «скармливают» модели больше данных, чем ей нужно, не просто так. Они пытаются учить ее, как учат человека в реальной жизни, — информации всегда больше, чем можно переработать, поэтому мозг тренируется отделять зерна от плевел и концентрироваться на важном. Но если человек никогда не осилит всю информацию мира, то для нейросетей эта задача решаема.
Что будет, если нейросети «съедят» все датасеты
⚫️Первичное обучение на тексте замедлится. Во-первых, потому что он будет накапливаться не так быстро. Во-вторых, его нужно до обучения проиндексировать — а это тоже время.
⚫️Понадобится больше AI-тренеров для дообучения. Тренеры будут обучать модели на специально созданных текстах.
⚫️В ход пойдут другие форматы данных — видео, картинки, звук. Так, GPT-4 обучена на миллионе часов расшифровок видео с YouTube.
⚫️Также, возможно, начнут использовать контент из соцсетей — посты, рилзы и прочее. Но это таит в себе несколько опасностей: публичность, которую мы не просили, — никто не хочет, чтобы GPT разговаривал его фразочками из чатиков. Также соцсети — это огромная «свалка» непроверенной, субъективно окрашенной информации, поэтому обучать на ней ИИ нужно осторожно.
Сейчас программисты и ученые разрабатывают новые методы машинного обучения, которые позволят нейросетям обучаться не на специально размеченных данных, а в ходе взаимодействия с человеком. Общение с человеком — гораздо более медленный опыт, чем датасеты, но с развитием ИИ процесс ускорится. Все больше ежедневных задач будет отдано голосовым помощникам, и они будут «расти» гораздо быстрее.
1 минута
19 июля