Окей, давайте сразу к делу. Есть проблема, которая бесит всех, кто пытается натренировать по-настоящему умного AI-агента. Реальные среды — будь то веб-поиск, командная строка или API-вызовы — это диктаторы. Они не дают тебе нужных условий. Тебе нужно, чтобы поисковик вернул пустой результат, чтобы проверить устойчивость агента? Иди лесом, поисковик вернёт то, что есть. Тебе нужно, чтобы в терминале внезапно закончилось место на диске? Терминал работает стабильно — он не актёр. Тренировка агентов упирается в потолок: ты видишь только то, что production-среда готова тебе показать. Граничные случаи, которые убьют агента в бою, в проде не встретишь. И вот команда Qwen из Alibaba взяла и перевернула доску. Во вторник они выкатили Qwen-AgentWorld — две архитектуры-монстра (35B и 397B параметров), которые обучены ровно обратному. Не тому, «что делать агенту», а тому, «что вернёт среда». Это как если бы вместо того, чтобы учить гонщика жать на газ, ты научил бы его предсказывать поведение тра
📰 Alibaba переворачивает обучение AI-агентов: что такое Qwen-AgentWorld и почему это ломает систему
СегодняСегодня
2 мин