Почему больше данных не делает нейросеть умнее: разбор мифа
Существует устойчивое убеждение: загрузи в нейросеть терабайты данных — и она станет умнее, точнее, полезнее. Больше примеров — больше паттернов — лучше результат. Звучит логично. Но это упрощение, которое в реальных проектах приводит к пустой трате ресурсов и разочарованию. Разбираемся, почему объём данных — вторичен, и что на самом деле определяет качество модели.
Откуда взялся миф о больших данных
Людям проще мыслить линейно: больше учишь — больше знаешь. Термин «большие данные» (big data) закрепил эту идею в массовом сознании. Когда что-то не работает, первая мысль — данных мало. Когда работает плохо — нужно ещё больше данных. Эта логика интуитивна, но она ломается о реальность.
Представьте: вы учите ребёнка отличать кошку от собаки и даёте ему 10 000 фотографий. Ребёнок запоминает конкретные картинки, а не признаки. Покажите ему породу, которой не было в выборке, — и он не справится. Это переобучение (overfitting): модель запоминает примеры вместо того, чтобы учиться на них.
Переобучение — это проблема регуляризации, а не данных
Когда данных слишком много и они слишком разнородные, нейросеть начинает «запоминать шум». Она выдаёт ответы, идеально совпадающие с обучающей выборкой, но бесполезные на новых примерах. Студент, выучивший ответы на 1 000 билетов, но не понимающий предмет, — на экзамене, где билет чуть отличается, завалится.
Принцип GIGO (Garbage In — Garbage Out) никто не отменял: модель отражает качество данных, на которых обучена. Чистые, размеченные примеры из предметной области дают больше, чем огромный массив неразмеченного или зашумлённого материала.
Что показывает практика: эксперименты с RAG
Конкретный эксперимент с RAG (Retrieval-Augmented Generation): при росте top-k с 1 до 10 количество входных токенов выросло с 522 до 3 881 — в 7,5 раз. При этом линейного улучшения ответов не было. Система просто тратила больше ресурсов на обработку шума. Качество не выросло, а стоимость запроса — выросла.
Проверяли и размер чанка (chunk size): 500, 1000, 1500, 2500 символов. Chunk в 2 500 символов давал больше контекста, но вместе с ним — больше мусора, выше задержки и нередко худший ответ. Рабочий диапазон — 500–1000 символов, но не потому что это «правило», а потому что именно под этот корпус, эту модель и эту задачу.
Кейс Ozon: почему компактная модель победила большую
Команда Ozon сознательно обучила компактную модель — decoder-only transformer на сотни миллионов параметров. Готовая языковая модель знает обычный язык, но не знает язык маркетплейса: «айфон 17 про», «пауэрбанк 20000», «чехол на 16 pro max», опечатки, транслитерации. Это другой мир.
Модель учится на последовательностях действий пользователя, а не на текстах из интернета. Два этапа: pretrain (понимание контекста маркетплейса) → fine-tuning (генерация подсказок). Результат — специализированный инструмент, который решает задачу лучше, чем большая модель с триллионами параметров.
Исторический урок: ALPAC report (1966)
Первые системы машинного перевода провалились не потому, что данных было мало — их утопили в нерелевантных и зашумлённых массивах. Вывод сделали через год: нужно не больше данных, а лучше алгоритмы и качественнее корпуса.
Что важнее объёма данных
Релевантность
Модель и так может знать информацию из своей памяти — retrieval приносит не улучшение, а overhead. Система тратит ресурсы на поиск того, что уже известно. Дороже и медленнее, а ответ тот же.
Репрезентативность
Модель видит нужное распределение задач. Иногда достаточно качественных примеров из предметной области, чтобы модель решала задачу лучше, чем большая модель, обученная на всём подряд.
Структурированный контекст
Команда Content AI загрузила в ИИ-агента PDF с Руководством разработчика — человеческую документацию. Результат: код не компилировался, нарушал контракты, не учитывал технические детали. ИИ-агенту нужен не сырой текст, а структурированный контекст: типы данных, сигнатуры методов, ограничения, реальные примеры входов и выходов. ИИ-каркас с примерами кода и JSON.schema заменил тысячи страниц документации.
Закон масштаба убывает: Chinchilla scaling laws
Исследование DeepMind (2022) показало: важно не только масштабирование, но и оптимальное соотношение параметров модели и токенов данных. Добавление данных даёт меньший прирост после определённого порога. Данные должны быть разнообразными и релевантными.
Современные компании тратят огромные ресурсы на очистку: de-duping (удаление дубликатов), качественный скрининг, удаление персональных данных. Deduplication и filtering критичны для современных LLM.
Что делать на практике
Не гонитесь за объёмом данных. Гонитесь за их точностью. Хорошая модель — это не та, что видела всё, а та, что поняла нужное. Прежде чем загружать терабайты — задайте себе три вопроса: эти данные релевантны задаче? Они чистые? Они покрывают краевые случаи?
И главное: без системы оценки у вас нет ничего, кроме «ощущений команды». А ощущения — это не метрики.
Больше простых разборов о нейросетях, ИИ-инструментах и технологиях — в нашем Telegram-канале «Нейросети | Просто | На пальцах» и в MAX. Подписывайтесь, чтобы не пропускать новые материалы.