39 подписчиков

Arbor Framework: в 2.5 раза эффективнее Claude Code в кодинге

25 июня25 июн

3 мин

Большинство AI-кодеров работают как упрямые отличники: пробуют одно решение, и если оно не взлетает, мучительно перебирают варианты по одному. Arbor Framework решает эту проблему, запуская целую армию клонов-агентов в разных ветках гита одновременно. Результат — эффективность в 2.5 раза выше, чем у Claude Code на тех же мощностях. Представь, что ты нанял крутого программиста. Он умный, знает все библиотеки, но работает линейно: пробует одно решение, если оно не взлетает — пробует другое. Проблема в том, что в сложных задачах такие агенты часто зацикливаются. Они могут десять раз пытаться исправить одну и ту же ошибку, забывая, почему предыдущие попытки провалились. Это похоже на работу джуна, который в панике переписывает функцию, пока она не заработает, но не понимает сути проблемы. Arbor Framework превращает поиск решения из линейного перебора в параллельный штурм. Вместо одного умника он разворачивает структуру, напоминающую работу техлида с командой стажёров. Здесь есть Координатор

Оглавление

Один умник против целого отдела
Гит-ветки как полигон для ошибок
Математика успеха и цена вопроса

Один умник против целого отдела

Представь, что ты нанял крутого программиста. Он умный, знает все библиотеки, но работает линейно: пробует одно решение, если оно не взлетает — пробует другое. Проблема в том, что в сложных задачах такие агенты часто зацикливаются. Они могут десять раз пытаться исправить одну и ту же ошибку, забывая, почему предыдущие попытки провалились. Это похоже на работу джуна, который в панике переписывает функцию, пока она не заработает, но не понимает сути проблемы.

Arbor Framework превращает поиск решения из линейного перебора в параллельный штурм. Вместо одного умника он разворачивает структуру, напоминающую работу техлида с командой стажёров. Здесь есть Координатор — главный мозг, который сам не пишет код, а рисует карту гипотез.

Координатор не просто кидает задачи в пространство. Он анализирует структуру проекта и создает дерево вариантов. Если задача требует изменения архитектуры, он не надеется на удачу одного промпта. Он создает несколько параллельных путей: в одном пробует рефакторинг интерфейсов, в другом — оптимизацию зависимостей. Такой подход позволяет исследовать пространство решений в ширину, а не только в глубину, что критично для больших кодовых баз.

Гит-ветки как полигон для ошибок

Главная фишка Arbor в том, как он организует работу исполнителей. Для каждой новой идеи агент создаёт изолированную рабочую область через git-worktree. Это как если бы ты дал десяти стажёрам десять разных ноутбуков с полной копией проекта.

Один стажёр пробует переписать архитектуру, другой лезет в конфиги. Они работают параллельно и не мешают друг другу. Если кто-то из них окончательно ломает проект — его ветка просто удаляется.

Координатор в это время следит за всеми сразу. Самое важное здесь — обработка неудач. Если гипотеза не сработала, система записывает в дерево конкретную причину провала: почему этот путь завел в тупик, какой побочный эффект возник. Это превращает процесс из слепого перебора в эволюцию кода: каждая ошибка становится уроком для всех остальных веток. Координатор обновляет общую карту знаний, и следующие попытки уже не повторяют старых промахов.

Математика успеха и цена вопроса

Цифры выглядят убедительно. На бенчмарке MLE-Bench Lite Arbor показал результат 86.36%, что на данный момент является рекордом. Для контекста: MLE-Bench Lite тестирует способность агента решать комплексные инженерные задачи, где нужно понимать контекст всего проекта и учитывать взаимосвязи между модулями.

В задачах по оптимизации поисковых агентов, где логика часто бывает рекурсивной и запутанной, точность составила 67.67%, в то время как Claude Code вытянул только 53.33%. Разница в 14% кажется небольшой, но в реальности это означает, что Arbor в два с половиной раза чаще находит рабочее решение там, где линейный агент уходит в бесконечный цикл исправлений. По сути, за тот же бюджет вычислений ты получаешь в разы больше рабочего кода.

Но за такую мощь приходится платить. Координатор крайне прожорливый агент. Он постоянно анализирует дерево, раздаёт задачи и проверяет отчеты, что сжигает большое количество токенов. Плюс, если ты планируешь запускать десятки параллельных git-worktree, готовь больше места на диске и мощный процессор, чтобы сборка проекта в разных ветках не превратила компьютер в обогреватель.

Кстати, основные тесты проводились на железе от AMD, на AMD Instinct MI355X. Так что владельцам NVIDIA придётся подождать полноценных замеров, чтобы понять, насколько всё будет летать в их контуре.

Подбираю и внедряю модели под задачи бизнеса без переплаты — если нужно в свой бизнес, напишите в телеграм @dmitra_ai или ВКонтакте, обсудим.

Это напоминает игру в лотерею, где ты не покупаешь один билет и не надеешься на удачу, а скупаешь сразу весь тираж. Да, это дорого, но ты точно знаешь, что в конце дня в твоих руках будет выигрышный билет с рабочим кодом.