В эпоху больших языковых моделей (LLM) мы привыкли, что обучение требует гигантских объёмов данных. Но Google Research показала, что это не догма. Их новая методика активного обучения сокращает потребность в данных для тонкой настройки в 10 000 раз, сохраняя или даже повышая качество работы модели. Вместо классической стратегии «загрузить всё подряд и размечать тоннами», исследователи сделали ставку на интеллектуальную фильтрацию данных: Ключевой момент — качество лейблов важнее их количества. Google использует метрику Каппа Коэна, которая измеряет согласованность экспертов, исключая случайные совпадения. Результат для модели Gemini Nano-2 (3.25B параметров) — рост согласованности с экспертами на 55–65%, при том что данных меньше в 1000–10 000 раз. Метод отлично ложится на динамичные домены, где «правила игры» меняются часто: Google фактически показала, как можно вырваться из «данных ради данных» и перейти к точечному, осмысленному обучению. Это напоминает работу опытного наставника, к
Когда 100 000 примеров превращаются в 250: как Google научила ИИ учиться быстрее
8 августа 20258 авг 2025
2 мин