📰 Alibaba переворачивает обучение AI-агентов: что такое Qwen-AgentWorld и почему это ломает систему

СегодняСегодня

2 мин

Окей, давайте сразу к делу. Есть проблема, которая бесит всех, кто пытается натренировать по-настоящему умного AI-агента. Реальные среды — будь то веб-поиск, командная строка или API-вызовы — это диктаторы. Они не дают тебе нужных условий. Тебе нужно, чтобы поисковик вернул пустой результат, чтобы проверить устойчивость агента? Иди лесом, поисковик вернёт то, что есть. Тебе нужно, чтобы в терминале внезапно закончилось место на диске? Терминал работает стабильно — он не актёр. Тренировка агентов упирается в потолок: ты видишь только то, что production-среда готова тебе показать. Граничные случаи, которые убьют агента в бою, в проде не встретишь. И вот команда Qwen из Alibaba взяла и перевернула доску. Во вторник они выкатили Qwen-AgentWorld — две архитектуры-монстра (35B и 397B параметров), которые обучены ровно обратному. Не тому, «что делать агенту», а тому, «что вернёт среда». Это как если бы вместо того, чтобы учить гонщика жать на газ, ты научил бы его предсказывать поведение тра

И вот команда Qwen из Alibaba взяла и перевернула доску. Во вторник они выкатили Qwen-AgentWorld — две архитектуры-монстра (35B и 397B параметров), которые обучены ровно обратному. Не тому, «что делать агенту», а тому, «что вернёт среда». Это как если бы вместо того, чтобы учить гонщика жать на газ, ты научил бы его предсказывать поведение трассы на следующем повороте. Звучит как магия? Это называется «языковая модель мира» — world model на стероидах.

Как работает «перевёрнутая» логика обучения AI-агентов

Большинство моделей-агентов решают одно уравнение: «Вот что я вижу на экране, скажи, что делать». Qwen-AgentWorld решает обратное: «Вот что я только что сделал, скажи, что я увижу». Они тренируются предсказывать следующее состояние среды, а не выбирать действие. И делают это сразу для семи доменов под капотом: MCP (протоколы), Поиск, Терминал, Разработка ПО (Software Engineering), Android, Веб и OS (операционные системы). Раньше были проекты типа WebWorld (только веб), Snowflake’s Agent World Model (кодогенерация баз данных). Qwen-AgentWorld — первый, кто впихнул семь доменов в единую архитектуру с момента самой ранней стадии претрейнинга.

Как это готовили? Собрали больше 10 миллионов траекторий взаимодействия с реальными средами. Первый этап — модель учится азам: как ведут себя файловые системы, как меняется DOM браузера, как выглядит JSON ответа API. Второй этап — модель учится сначала рассуждать, что будет дальше, а потом предсказывать. Третий этап — reinforcement learning (RL), где предсказания затягиваются правилами и оценкой качества. И да, это Mixture-of-Experts: у 35B версии активно только 3B параметров на токен, у 397B — 17B. Обе поддерживают окно контекста в 256K токенов. Графические интерфейсы (Android, Web, OS) они анализируют не по скриншотам, а по текстовым accessibility-деревьям и иерархиям UI. Чертовски умно.

Цифры, ради которых всё затевалось

Бенчмарки — это хорошо, но реальные результаты тренировки — вот где мясо. Агенты, обученные внутри контролируемой симуляции (coSim-RL), показали результаты выше, чем те, что гоняли на реальных средах. Смотрите:

— MCPMark: с 24.6 (без контроля) рванул до 33.8.

— Поисковый бенчмарк WideSearch F1: с 34.02 до 50.31. И это агенты, обученные на ВЫДУМАННЫХ мирах, которые потом переключились на реальный поиск.

— Warm-up тест (обучение world model в качестве разминки перед финальной настройкой): BFCL v4 вырос с 62.29 до 71.25, Claw-Eval — с 53.60 до 64.88. И никакой специальной донастройки под агентские задачи!

Не всё так гладко: критика и риск переобучения

Разумеется, в X разгорелись споры. Один из AI-исследователей (@drawais_ai) сказал: «Они перевернули вопрос....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут