Найти тему

💡 Нейросети обучают на датасетах, состоящих из гигантских объёмов текстов. Объем этих данных огромен, но не бесконечен. Как же LLM будут учится, когда данные закончатся?


Собрал для вас небольшой FAQ по этому вопросу 🔎

Сколько данных нужно для обучения?
Самые большие LLM используют наборы данных с десятками триллионов слов, и с каждым новым релизом их нужно больше. По подсчётам Epoch AI, в интернете содержится около 500 триллионов токенов (частей слов или целых слов в понятном для машин виде). Но если отфильтровать некачественный контент, останется 100 триллионов.

Когда данные закончатся?
Epoch AI считают, что технологические компании исчерпают запас общедоступных текстовых данных с 2026 по 2032 год, если сохранятся текущие темпы развития и тренд на «избыточное обучение» (использование большего количества данных, чем требуется).

Если данные закончатся, языковые модели перестанут учиться?
Нет, но обучение моделей станет более медленным и будет зависеть от скорости появления новых данных. Правда, объёмные публичные данные важны только на этапе предобучения. На этапе дообучения, на котором нейросети учатся следовать инструкциям на примерах от AI-тренеров, они не играют такой роли.

Модели можно обучать на чём-то ещё?
На нетекстовых данных, например видео и подкастах. Обучая GPT-4, OpenAI расшифровала более миллиона часов видео с YouTube.

На данных «глубокого» интернета — неиндексированных страницах и постах в социальных сетях. Контента из соцсетей примерно в 10 раз больше, чем открытых данных. Но использовать такие данные сложно из-за их конфиденциальности и ограничений платформ.
_____
Затестить мощный ИИ прямо сейчас можете в LeoGPT
1 минута