87 подписчиков

От 100 000 до 500 примеров: как Google AI сократил объем данных для обучения языковых моделей в тысячи раз

10 августа 202510 авг 2025

3 мин

Представьте себе: вместо ста тысяч примеров для обучения ИИ достаточно всего нескольких сотен. Звучит как фантастика? Google Research превратил это в реальность, и честно говоря, я до сих пор не могу поверить в масштаб прорыва. Ребята из Google разработали метод дообучения больших языковых моделей, который урезает необходимый объем тренировочных данных в 10 000 раз. Да, вы не ослышались – в десять тысяч раз! При этом качество модели не падает, а иногда даже улучшается. Фишка в том, что они сосредоточились на активном обучении и сконцентрировали усилия экспертов по разметке на самых информативных примерах – тех самых “пограничных случаях”, где модель больше всего сомневается. Короче говоря, дообучение больших языковых моделей для задач, требующих глубокого понимания контекста и культурных особенностей (например, проверка безопасности рекламного контента или модерация), традиционно требовало огромных наборов качественно размеченных данных. Большая часть данных оказывается безобидной, а э

Оглавление

Что вообще происходит?
А в чем была проблема раньше?
Прорыв Google в активном обучении

Что вообще происходит?

Ребята из Google разработали метод дообучения больших языковых моделей, который урезает необходимый объем тренировочных данных в 10 000 раз. Да, вы не ослышались – в десять тысяч раз! При этом качество модели не падает, а иногда даже улучшается.

Фишка в том, что они сосредоточились на активном обучении и сконцентрировали усилия экспертов по разметке на самых информативных примерах – тех самых “пограничных случаях”, где модель больше всего сомневается.

А в чем была проблема раньше?

Короче говоря, дообучение больших языковых моделей для задач, требующих глубокого понимания контекста и культурных особенностей (например, проверка безопасности рекламного контента или модерация), традиционно требовало огромных наборов качественно размеченных данных.

Большая часть данных оказывается безобидной, а это значит, что для выявления нарушений политик важна лишь небольшая часть примеров. Это резко увеличивает стоимость и сложность курирования данных. Стандартные методы также с трудом поспевают за изменениями в политиках или проблемных паттернах, что требует дорогостоящего переобучения.

Прорыв Google в активном обучении

Как это работает:

LLM как разведчик: Языковая модель сканирует огромный корпус (сотни миллиардов примеров) и выявляет случаи, в которых она менее всего уверена.
Целевая разметка экспертами: Вместо разметки тысяч случайных примеров человеческие эксперты аннотируют только те пограничные, запутанные элементы.
Итеративное курирование: Этот процесс повторяется, причем каждая партия новых “проблемных” примеров формируется на основе точек неопределенности последней модели.
Быстрая сходимость: Модели дообучаются в несколько раундов, и итерация продолжается до тех пор, пока выход модели не будет тесно соответствовать экспертному суждению – это измеряется коэффициентом Коэна каппа, который сравнивает согласие между аннотаторами сверх случайности.

Результаты просто поражают:

Потребности в данных резко падают: В экспериментах с моделями Gemini Nano-1 и Nano-2 соответствие человеческим экспертам достигло паритета или даже лучше, используя 250-450 хорошо подобранных примеров вместо примерно 100 000 случайных краудсорсинговых меток. Это сокращение на три-четыре порядка!

Качество модели растет: Для более сложных задач и больших моделей улучшения производительности достигли 55-65% по сравнению с базовой линией, демонстрируя более надежное соответствие экспертам по политикам.

Эффективность разметки: Для надежных улучшений при использовании крошечных наборов данных неизменно требовалось высокое качество меток (коэффициент Коэна каппа > 0,8).

Почему это важно прямо сейчас

Этот подход переворачивает традиционную парадигму с ног на голову. Вместо того чтобы топить модели в огромных лужах шумных, избыточных данных, он использует способность больших языковых моделей выявлять неоднозначные случаи и доменную экспертизу человеческих аннотаторов там, где их вклад наиболее ценен.

Преимущества просто колоссальные:

Снижение затрат: Гораздо меньше примеров для разметки, что драматически снижает трудовые и капитальные расходы.
Более быстрые обновления: Возможность переобучать модели на горстке примеров делает адаптацию к новым паттернам злоупотреблений, изменениям политик или доменным сдвигам быстрой и осуществимой.
Общественное воздействие: Расширенные возможности для контекстуального и культурного понимания повышают безопасность и надежность автоматизированных систем, обрабатывающих деликатный контент.

Что в итоге?

Новая методология Google позволяет дообучать большие языковые модели для сложных, развивающихся задач, используя всего лишь сотни (а не сотни тысяч) целевых, высококачественных меток. Это открывает эру гораздо более экономичной, гибкой и рентабельной разработки моделей.

Кстати, если вы хотите погрузиться глубже в технические детали, обязательно загляните в техническую статью из блога Google. А еще можете проверить их страницу на GitHub для обучающих материалов, кодов и блокнотов.

Такие прорывы в области ИИ происходят буквально каждый день, и следить за всеми новостями становится все сложнее. Но самые важные открытия я всегда разбираю максимально просто и понятно!🔔 Чтобы не пропустить новые прорывы в области искусственного интеллекта и машинного обучения, подписывайтесь на мой канал “ProAI” в Telegram!