208 подписчиков

Когда 100 000 примеров превращаются в 250: как Google научила ИИ учиться быстрее

8 августа 20258 авг 2025

2 мин

В эпоху больших языковых моделей (LLM) мы привыкли, что обучение требует гигантских объёмов данных. Но Google Research показала, что это не догма. Их новая методика активного обучения сокращает потребность в данных для тонкой настройки в 10 000 раз, сохраняя или даже повышая качество работы модели. Вместо классической стратегии «загрузить всё подряд и размечать тоннами», исследователи сделали ставку на интеллектуальную фильтрацию данных: Ключевой момент — качество лейблов важнее их количества. Google использует метрику Каппа Коэна, которая измеряет согласованность экспертов, исключая случайные совпадения. Результат для модели Gemini Nano-2 (3.25B параметров) — рост согласованности с экспертами на 55–65%, при том что данных меньше в 1000–10 000 раз. Метод отлично ложится на динамичные домены, где «правила игры» меняются часто: Google фактически показала, как можно вырваться из «данных ради данных» и перейти к точечному, осмысленному обучению. Это напоминает работу опытного наставника, к

Оглавление

🔍 В чём суть прорыва
📏 Почему это работает
🌍 Где это особенно полезно

Облако точек и документов падает в «воронку», на выходе остаётся горстка светящихся карточек-меток; роботизированная рука с лупой выхватывает пограничные точки на кластерах, рядом — ползунки настройки. Метафора активного обучения и 10 000× сокращения данных при высокоточных разметках.

🔍 В чём суть прорыва

Вместо классической стратегии «загрузить всё подряд и размечать тоннами», исследователи сделали ставку на интеллектуальную фильтрацию данных:

🧩 Кластеризация ошибок — начальная модель (LLM-0) с нулевым или минимальным количеством примеров размечает массив из сотен миллиардов данных. Затем алгоритм группирует примеры по классам («кликбейт» vs «норма»).
🎯 Поиск пограничных случаев — выделяются кластеры, где метки пересекаются, что указывает на потенциальные ошибки модели.
🧑‍⚖ Экспертная аннотация — к разметке отправляются только пары «трудных» примеров, максимально разные по содержанию, чтобы покрыть всё проблемное пространство.
🔄 Итеративное обучение — модель дообучается на этих высококачественных примерах, и процесс повторяется, пока качество не перестанет расти.

📏 Почему это работает

Ключевой момент — качество лейблов важнее их количества. Google использует метрику Каппа Коэна, которая измеряет согласованность экспертов, исключая случайные совпадения.

📈 Цель — выйти на Kappa ≥ 0.8 (уровень высокой согласованности людей).
📉 Традиционный подход — 100 000 краудсорс-разметок с перекосом классов (до 95% «безопасного» контента).
📊 Новый подход — 250–450 тщательно отобранных примеров, размеченных экспертами с Kappa ≈ 0.78–0.81.

Результат для модели Gemini Nano-2 (3.25B параметров) — рост согласованности с экспертами на 55–65%, при том что данных меньше в 1000–10 000 раз.

🌍 Где это особенно полезно

Метод отлично ложится на динамичные домены, где «правила игры» меняются часто:

🛡 Модерация рекламы — новые виды запрещённого контента появляются ежемесячно, и старые датасеты быстро устаревают.
📰 Фильтрация фейков — каждый инфоповод создаёт новые паттерны дезинформации.
🩺 Медицинские ИИ — нужно быстро адаптироваться к новым протоколам и терминам.

🧠 Моё мнение

Google фактически показала, как можно вырваться из «данных ради данных» и перейти к точечному, осмысленному обучению. Это напоминает работу опытного наставника, который даёт ученику не сотни однотипных задач, а десяток «самых показательных».

Технически подход интересен ещё и тем, что он не требует наличия абсолютной «истины» в данных — важно лишь согласие экспертов, что критично для задач с высокой субъективностью (например, этика контента).

Если этот метод станет массовым, мы можем увидеть новый стандарт в ML-индустрии, где не гигабайты размеченных данных определяют успех, а качество отбора и экспертизы.

🔗 Ссылки по теме:

Оригинальная статья Google Research
Книга «Active Learning» Burr Settles — классика о методах активного отбора данных.