15 подписчиков

На чём учатся нейросети и почему интернет как источник данных заканчивается

12 февраля12 фев

4 мин

Чтобы понять, куда движется индустрия ИИ в 2026 году, нужно разобраться в одной фундаментальной штуке: откуда нейросети берут знания. Не в метафорическом смысле — а буквально. Какие данные скармливают моделям при обучении, и что происходит, когда эти данные заканчиваются или портятся. Начнём с базы. Любая большая языковая модель — ChatGPT, Claude, Gemini, GigaChat — обучается на текстах. Гигантских объёмах текстов. GPT-3 в 2020 году учился на 300 миллиардах токенов (это условные слова и части слов). GPT-4 — на порядки больше, точные цифры OpenAI не раскрывал. Для обучения использовали всё: Википедию, книги, научные статьи, форумы, блоги, новости, Reddit, Stack Overflow, код с GitHub. По сути, модель «прочитала» значительную часть англоязычного интернета и немалый кусок русскоязычного. Интернет засоряется. Не в привычном смысле — спамом или рекламой, хотя этого тоже хватает. Он засоряется контентом, который сам был сгенерирован нейросетями. SEO-статьи, написанные ChatGPT. Ответы на фору

Оглавление

Исследователи давно бьют тревогу
Эксперты уже который год предсказывают бум узконаправленных нейросетей
Мы входим в период, когда данные для обучения ИИ становятся настоящей валютой

Начнём с базы. Любая большая языковая модель — ChatGPT, Claude, Gemini, GigaChat — обучается на текстах. Гигантских объёмах текстов. GPT-3 в 2020 году учился на 300 миллиардах токенов (это условные слова и части слов). GPT-4 — на порядки больше, точные цифры OpenAI не раскрывал. Для обучения использовали всё: Википедию, книги, научные статьи, форумы, блоги, новости, Reddit, Stack Overflow, код с GitHub. По сути, модель «прочитала» значительную часть англоязычного интернета и немалый кусок русскоязычного.

Исследователи давно бьют тревогу

Интернет засоряется. Не в привычном смысле — спамом или рекламой, хотя этого тоже хватает. Он засоряется контентом, который сам был сгенерирован нейросетями. SEO-статьи, написанные ChatGPT. Ответы на форумах, выданные ботами. Описания товаров, созданные автоматически. Комментарии, отзывы, посты в соцсетях — всё больше текста в интернете написано не людьми.

А теперь представьте: новую модель обучают на этих текстах. Она учится на контенте, который создала предыдущая версия неё самой. В науке это называется «модельный коллапс» — когда каждое следующее поколение модели деградирует, потому что обучается на артефактах предыдущего. Как ксерокопия с ксерокопии: каждый раз чуть хуже, пока текст не превращается в бессмысленный набор слов.

На Хабре в январе вышла большая статья с характерным заголовком — «На чём будут учиться нейросети в 2026». Автор описывает ситуацию метко: эпоха «сырого интернета» как источника данных заканчивается. Раньше компании гнались за объёмом — «ещё десять триллионов токенов!». Теперь выигрывает другой подход: курирование, дедупликация и фильтрация.

На практике это выглядит так. На платформе Hugging Face выложили FineWeb — очищенный и дедуплицированный набор англоязычных веб-текстов из CommonCrawl. 18,5 триллиона токенов, из которых вычищен мусор, дубликаты и откровенно некачественный контент. Есть даже версия FineWeb-Edu — ещё более строгая, где оставили только тексты с образовательной ценностью. Объём меньше, но качество обучения на нём — выше.

Параллельно набирает силу другой тренд: лицензирование данных. Компании перестают тащить из интернета всё подряд и начинают платить за доступ к качественным источникам. OpenAI заключила партнёрство со Stack Overflow через OverflowAPI — доступ к курированным данным за деньги. Похожие сделки идут с издательствами, СМИ, научными платформами.

Это логичное развитие событий. В 2025 году суды по всему миру начали разбирать иски о нарушении авторских прав при обучении моделей. Газеты, писатели, фотографы — все хотят компенсации. Юридические риски растут, и компаниям проще заплатить за легальный доступ, чем разбираться в судах.

Ещё один источник данных, который становится всё популярнее, — синтетические данные. Звучит парадоксально: модель генерирует тексты, на которых потом обучается другая модель. Но тут есть нюанс. Синтетические данные работают, если их генерирует сильная модель, а обучается — слабая. Условно: GPT-5 создаёт обучающие примеры для небольшой специализированной модели, которая будет работать в конкретной области — юридической, медицинской, финансовой. В таком сценарии синтетика не ведёт к деградации, а наоборот — помогает сфокусировать знания.

Эксперты уже который год предсказывают бум узконаправленных нейросетей

Кстати, о специализированных моделях. В 2026-м это наконец становится реальностью. Лина Кочетова из «Михайлов и партнёры» рассказывала в интервью TechInsider, что ждёт появления отдельных моделей для врачей, юристов, бухгалтеров — обученных на профессиональных текстах и данных, а не на общем интернет-шуме. Логика простая: зачем модели, которая пишет стихи, отвечает на вопросы по физике и советует рецепты, — знать всё обо всём? Лучше сделать десять маленьких моделей, каждая из которых разбирается в своей области на порядок лучше любого универсала.

Для обычного пользователя всё это означает вот что. Качество нейросетей в ближайшие годы будет определяться не размером модели, а качеством данных, на которых она обучена. Гонка «у кого больше параметров» уходит в прошлое. На смену приходит гонка «у кого чище и релевантнее обучающая выборка». И в этой гонке преимущество получат те компании, которые умеют работать с данными, а не просто скачивать весь интернет.

Есть ещё один аспект, который я не могу обойти. В январе 2026-го всплыла история с Amazon. При формировании наборов данных для обучения ИИ компания обнаружила в собранных из интернета материалах сотни тысяч изображений с предполагаемым насилием над детьми. Amazon направила больше миллиона уведомлений в Национальный центр по делам пропавших и эксплуатируемых детей — это в разы больше, чем у других техногигантов. Аналитик из организации Thorn прокомментировал ситуацию прямо: при бездумном сборе данных из интернета такой контент неизбежен. Вопрос в том, что для компаний приоритетнее — скорость разработки или ответственность.

Эта история — наглядная иллюстрация того, почему подход «собрать всё подряд, разберёмся потом» больше не работает. Ни технически, ни этически, ни юридически.

Мы входим в период, когда данные для обучения ИИ становятся настоящей валютой

Кто владеет качественными данными — тот контролирует качество моделей. Интернет в его нынешнем виде для этой цели уже не годится. Нужны новые подходы, новые стандарты, новые соглашения между теми, кто создаёт контент, и теми, кто использует его для обучения машин.

Куда это приведёт — посмотрим. Но одно я знаю точно: эра бесплатного «всё для всех» в мире данных заканчивается. И это, пожалуй, не самая плохая новость.