В мире искусственного интеллекта появилась идея, которая может перевернуть представления о том, как машины узнают мир. Традиционно модели учатся на примерах, заданных людьми: огромные датасеты текстов, изображений и других данных учат нейросети «отгадывать» правильные ответы. Однако недавнее исследование показывает: ИИ может самостоятельно генерировать задачи и учиться на собственных успехах и ошибках, подобно тому, как это делает человек.
Группа исследователей из Университета Цинхуа, Института общего искусственного интеллекта в Пекине (BIGAI) и Университета штата Пенсильвания разработала экспериментальную систему под названием Absolute Zero Reasoner (AZR). В её основе лежит принцип самообучения: модель сначала генерирует сложные, но решаемые задачи на Python, затем пытается решить их сама и проверяет результаты, запуская код. Успехи и неудачи становятся сигналами для дальнейшего улучшения — модель перенастраивает себя так, чтобы в следующий раз задавать более интересные задачи и лучше на них отвечать.
Такой механизм можно сравнить с человеческим обучением: сначала мы копируем поведение окружающих, но затем начинаем задавать собственные вопросы и учимся, пробуя разного рода подходы. По словам разработчиков, это не просто технический трюк: при тестировании на открытых моделях Qwen с 7 и 14 миллиардами параметров AZR заметно улучшил способности таких моделей к программированию и рассуждению, и в ряде случаев даже превзошёл модели с данными ручной курируемой разметки.
Новое понимание обучения AI
Традиционные большие языковые модели (LLM) после основного этапа обучения фактически перестают учиться в процессе использования. Это означает, что они обладают «датой устаревания»: их знания заморожены на момент завершения тренировки, и без дополнительных механизмов обновления они не улучшают свои навыки в реальном времени. Такой подход хорошо работает для широкого круга задач, но не позволяет моделям адаптироваться к новым, динамичным условиям.
Новые подходы, подобные Absolute Zero, выходят за рамки классического обучения. Они дают ИИ возможность самостоятельно выбирать, чему учиться, когда и как проверять результаты. В таком контексте модели становятся не просто потребителями данных, а активными исследователями. Исследования аналогичного плана также показывают, что модели могут продолжать дообучение в ходе эксплуатации и на разных уровнях абстракции: от кода до текстов и логических задач.
Переход от «обучения один раз» к адаптивному самообучению — это часть более широкой тенденции в области continual learning (непрерывное обучение). Такие модели способны накапливать новые знания без потери уже имеющихся, преодолевая так называемое катастрофическое забывание — эффект, когда нейросеть забывает старые навыки после изучения новых. Этот переход меняет базовую архитектуру ИИ — от статичных систем к динамичным, способным адаптироваться и эволюционировать.
Что ещё происходит в этой области
Инициативы по расширению возможностей самообучения появляются по всему миру. Новые архитектуры, такие как разработка стартапа Pathway под названием Dragon Hatchling, моделируют обновление связей внутри сети по образцу человеческого мозга, позволяя ИИ перераспределять внутренние параметры в реальном времени. Это может стать шагом к более гибким и адаптивным системам, близким к человеческим способностям обучения.
Другие экспериментальные методы сосредоточены на раздельном хранении памяти и логики. Исследования показывают, что механизмы запоминания и способность решать новые задачи могут работать независимо друг от друга, что открывает путь к более устойчивым ИИ-системам без необходимости переобучать их заново.
Где это важно в реальности
Перспектива, что ИИ сможет учиться как человек — ставить себе вопросы, анализировать свои ошибки и корректировать курс развития без постоянного участия человека — обещает революцию во многих областях. От автоматизированных ассистентов, которые будут адаптироваться к конкретным пользователям, до сложных систем, решающих научные и инженерные задачи в условиях неопределённости. Применение таких моделей в науке, медицине и бизнес-аналитике может резко увеличить скорость инноваций и снизить потребность в ручной корректировке моделей.
От редакции
Мы наблюдаем важный сдвиг в том, как инженерия ИИ воспринимает процесс обучения. Раньше «обучение» означало огромные датасеты, гигантские кластеры графических процессоров и длительные циклы тренировки. Новые подходы акцентируют внимание на способности модели адаптироваться, генерировать собственные задачи и извлекать пользу из своих ошибок. Это похоже на эволюцию от механического к живому: от программ, которые запоминают, к системам, которые понимают.
Этот тренд особенно актуален на фоне дефицита качественных данных и растущих затрат на подготовку моделей. Чем меньше модель зависит от внешнего обучения, тем более устойчивой и самостоятельной она становится. В стратегическом плане компании, которые освоят адаптивное самообучение, получат технологическое преимущество: их ИИ будет учиться дольше, сохранять актуальность и лучше адаптироваться к изменяющимся условиям рынка и поведения пользователей.
В перспективе это меняет не только технологии, но и роль разработчиков. От кодирования конкретных задач мы переходим к проектированию систем, которые могут думать о том, чему учиться дальше. Такое ИИ ещё не «разум» в человеческом смысле, но уже выходит за пределы простого повторения примеров.