Но это миф, который давно не работает. Современный ИИ — это тонкий баланс между данными, алгоритмами и качеством обучения. А иногда одна умная идея может дать больше, чем миллиард новых строк текста. Разбираемся простым языком, что действительно влияет на интеллект ИИ. Это работает только в начале. Да, первые миллионы примеров дают огромный скачок.
Но дальше начинается эффект убывающей отдачи: Сегодня нейросети обучают на настолько огромных датасетах, что их уже невозможно “перекормить” — качество перестаёт расти. Почему много данных ≠ лучше? ⚠️ растёт шум
⚠️ растут ошибки
⚠️ резко увеличивается стоимость обучения
⚠️ модель “расплывается” и теряет устойчивость Вывод: важны не только объёмы, но и качество данных. Это совсем не так.
Именно архитектура модели сегодня даёт самые большие прорывы. Что улучшает ИИ без увеличения датасета: ✨ более эффективные трансформеры
✨ оптимизация внимания
✨ улучшенная токенизация
✨ новые методы обучения (RLHF, DPO, RAG)
✨ distillation — “сжатие