На чём учатся нейросети и почему интернет как источник данных заканчивается
Чтобы понять, куда движется индустрия ИИ в 2026 году, нужно разобраться в одной фундаментальной штуке: откуда нейросети берут знания. Не в метафорическом смысле — а буквально. Какие данные скармливают моделям при обучении, и что происходит, когда эти данные заканчиваются или портятся. Начнём с базы. Любая большая языковая модель — ChatGPT, Claude, Gemini, GigaChat — обучается на текстах. Гигантских объёмах текстов. GPT-3 в 2020 году учился на 300 миллиардах токенов (это условные слова и части слов). GPT-4 — на порядки больше, точные цифры OpenAI не раскрывал. Для обучения использовали всё: Википедию, книги, научные статьи, форумы, блоги, новости, Reddit, Stack Overflow, код с GitHub...