Найти в Дзене
Цифровая Переплавка

Когда 100 000 примеров превращаются в 250: как Google научила ИИ учиться быстрее

В эпоху больших языковых моделей (LLM) мы привыкли, что обучение требует гигантских объёмов данных. Но Google Research показала, что это не догма. Их новая методика активного обучения сокращает потребность в данных для тонкой настройки в 10 000 раз, сохраняя или даже повышая качество работы модели. Вместо классической стратегии «загрузить всё подряд и размечать тоннами», исследователи сделали ставку на интеллектуальную фильтрацию данных: Ключевой момент — качество лейблов важнее их количества. Google использует метрику Каппа Коэна, которая измеряет согласованность экспертов, исключая случайные совпадения. Результат для модели Gemini Nano-2 (3.25B параметров) — рост согласованности с экспертами на 55–65%, при том что данных меньше в 1000–10 000 раз. Метод отлично ложится на динамичные домены, где «правила игры» меняются часто: Google фактически показала, как можно вырваться из «данных ради данных» и перейти к точечному, осмысленному обучению. Это напоминает работу опытного наставника, к
Оглавление
Облако точек и документов падает в «воронку», на выходе остаётся горстка светящихся карточек-меток; роботизированная рука с лупой выхватывает пограничные точки на кластерах, рядом — ползунки настройки. Метафора активного обучения и 10 000× сокращения данных при высокоточных разметках.
Облако точек и документов падает в «воронку», на выходе остаётся горстка светящихся карточек-меток; роботизированная рука с лупой выхватывает пограничные точки на кластерах, рядом — ползунки настройки. Метафора активного обучения и 10 000× сокращения данных при высокоточных разметках.

В эпоху больших языковых моделей (LLM) мы привыкли, что обучение требует гигантских объёмов данных. Но Google Research показала, что это не догма. Их новая методика активного обучения сокращает потребность в данных для тонкой настройки в 10 000 раз, сохраняя или даже повышая качество работы модели.

🔍 В чём суть прорыва

Вместо классической стратегии «загрузить всё подряд и размечать тоннами», исследователи сделали ставку на интеллектуальную фильтрацию данных:

  • 🧩 Кластеризация ошибок — начальная модель (LLM-0) с нулевым или минимальным количеством примеров размечает массив из сотен миллиардов данных. Затем алгоритм группирует примеры по классам («кликбейт» vs «норма»).
  • 🎯 Поиск пограничных случаев — выделяются кластеры, где метки пересекаются, что указывает на потенциальные ошибки модели.
  • 🧑‍⚖ Экспертная аннотация — к разметке отправляются только пары «трудных» примеров, максимально разные по содержанию, чтобы покрыть всё проблемное пространство.
  • 🔄 Итеративное обучение — модель дообучается на этих высококачественных примерах, и процесс повторяется, пока качество не перестанет расти.

📏 Почему это работает

Ключевой момент — качество лейблов важнее их количества. Google использует метрику Каппа Коэна, которая измеряет согласованность экспертов, исключая случайные совпадения.

  • 📈 Цель — выйти на Kappa ≥ 0.8 (уровень высокой согласованности людей).
  • 📉 Традиционный подход — 100 000 краудсорс-разметок с перекосом классов (до 95% «безопасного» контента).
  • 📊 Новый подход — 250–450 тщательно отобранных примеров, размеченных экспертами с Kappa ≈ 0.78–0.81.

Результат для модели Gemini Nano-2 (3.25B параметров) — рост согласованности с экспертами на 55–65%, при том что данных меньше в 1000–10 000 раз.

🌍 Где это особенно полезно

Метод отлично ложится на динамичные домены, где «правила игры» меняются часто:

  • 🛡 Модерация рекламы — новые виды запрещённого контента появляются ежемесячно, и старые датасеты быстро устаревают.
  • 📰 Фильтрация фейков — каждый инфоповод создаёт новые паттерны дезинформации.
  • 🩺 Медицинские ИИ — нужно быстро адаптироваться к новым протоколам и терминам.

🧠 Моё мнение

Google фактически показала, как можно вырваться из «данных ради данных» и перейти к точечному, осмысленному обучению. Это напоминает работу опытного наставника, который даёт ученику не сотни однотипных задач, а десяток «самых показательных».

Технически подход интересен ещё и тем, что он не требует наличия абсолютной «истины» в данных — важно лишь согласие экспертов, что критично для задач с высокой субъективностью (например, этика контента).

Если этот метод станет массовым, мы можем увидеть новый стандарт в ML-индустрии, где не гигабайты размеченных данных определяют успех, а качество отбора и экспертизы.

🔗 Ссылки по теме: