Добавить в корзинуПозвонить
Найти в Дзене

📰 Новый AI-фреймворк Arbor: как он уделывает Claude Code и Codex в 2,5 раза — и почему это меняет правила игры в оптимизации

Представь: твоя команда только что развернула AI-агента, который должен рыться во внутренних документах компании и отвечать на вопросы сотрудников. В разработке он работает как часы. Но в продакшене — начинает галлюцинировать, пропускать ключевые ограничения, тупить. И простым патчем тут не отделаться. Начинается мучительный метод тыка: меняешь нарезку документов, алгоритмы поиска, системные промпты — всё сразу. А потом сидишь и гадаешь: что именно из этого барахла сработало? Потому что изменения переплетаются, и понять, какой рычаг подействовал, становится почти невозможно. Чтобы выйти из этого замкнутого круга, исследователи из Университета Жэньминь (Китай) и Microsoft Research представили Arbor — фреймворк, который превращает AI-исследования и оптимизацию из последовательности слепых экспериментов в накопительный процесс обучения. Arbor организует гипотезы, тесты и выводы в дерево, которое помогает системе учиться на прошлых ошибках и со временем делать умные, проверенные улучшения

 📰 Новый AI-фреймворк Arbor: как он уделывает Claude Code и Codex в 2,5 раза — и почему это меняет правила игры в оптимизации

Представь: твоя команда только что развернула AI-агента, который должен рыться во внутренних документах компании и отвечать на вопросы сотрудников. В разработке он работает как часы. Но в продакшене — начинает галлюцинировать, пропускать ключевые ограничения, тупить. И простым патчем тут не отделаться. Начинается мучительный метод тыка: меняешь нарезку документов, алгоритмы поиска, системные промпты — всё сразу. А потом сидишь и гадаешь: что именно из этого барахла сработало? Потому что изменения переплетаются, и понять, какой рычаг подействовал, становится почти невозможно.

Чтобы выйти из этого замкнутого круга, исследователи из Университета Жэньминь (Китай) и Microsoft Research представили Arbor — фреймворк, который превращает AI-исследования и оптимизацию из последовательности слепых экспериментов в накопительный процесс обучения. Arbor организует гипотезы, тесты и выводы в дерево, которое помогает системе учиться на прошлых ошибках и со временем делать умные, проверенные улучшения.

На практике Arbor показал более чем 2,5-кратный прирост верифицированной производительности по сравнению со стандартными AI-кодинг-агентами — при тех же затратах ресурсов. Для корпоративного AI это прямой путь к автоматизации непрерывного улучшения сложных инженерных систем реального мира.

Понимание узкого места автономной оптимизации

По мере того как языковые модели и AI-системы становятся всё мощнее, от них ожидают выполнения всё более сложных операций — вроде автономной оптимизации (AO) софтверных систем: обвязок агентов, тренировочных алгоритмов и так далее.

AO захватывает фундаментальный цикл автономного исследования: AI-агент стартует с некоего изменяемого артефакта (скажем, кодовой базы для машинного обучения или пайплайна данных) и конкретной цели. Задача агента — итеративно улучшать этот артефакт через экспериментальную обратную связь, без пошагового контроля человека.

Главная проблема AO часто понимается неправильно. Многие инженерные команды обнаруживают, что простой выдел больше времени или вычислительных мощностей кодинговому агенту для оптимизации кодовой базы не даёт лучших результатов. «Автоматизация может заставить AI работать очень долго — но цикл ≠ прогресс», — говорит Джяцзе Джин, соавтор статьи. — «Если цель размыта, или метрику легко накрутить, долгая автоматизация просто быстрее генерирует "улучшения", которые на самом деле никому не нужны».

Джин объясняет, что сложные задачи требуют множества попыток, а стандартные архитектуры агентов лишены критической структуры данных для поддержания состояния. «Как сделать так, чтобы опыт и выводы из каждой попытки накапливались, а не терялись в буфере обратной прокрутки?» — спрашивает он. Без такой структуры агенты просто повторяют одни и те же ошибки.

Текущие агентные системы могут часами гонять эксперименты с хорошо заданными целями: править код, вызывать инструменты, прогонять тесты. Но каждый заход рассматривается в изоляции — не хватает структурных механизмов, которые позволили бы накапливать знания и действовать на их основе.

Им не хватает способности одновременно вести и сравнивать несколько конкурирующих направлений исследований. Без этого невозможно интерпретировать и успехи, и провалы для формирования будущих поисков — а это ключевой механизм, делающий человеческие исследования накопительными....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут