24 подписчика

Автономные агенты написали браузер за неделю!

15 января15 янв

1 мин

Разработчики Cursor провели эксперимент по масштабированию автономных кодинг-агентов. Сотни агентов работали параллельно над одним проектом в течение нескольких недель, написав более миллиона строк кода. Целью было выяснить, возможно ли решать задачи, требующие от команд разработчиков месяцы работы. Основной проблемой оказалась координация. Предоставление агентам равных прав приводило к низкой производительности: лишь двадцать агентов работали эффективно, в то время как остальные ожидали освобождения ресурсов. Более того, без четкой иерархии агенты избегали сложных задач, предпочитая мелкие и безопасные изменения. Решением стало разделение ролей: планировщики отвечают за анализ кода и создание задач, а воркеры – за их выполнение и внесение изменений. Для проверки системы агентам на базе GPT-5.2 было поручено разработать браузер с нуля. В результате недельной непрерывной работы было сгенерировано более трех миллионов строк кода. Движок рендеринга, написанный на Rust, включает парсинг HT

Основной проблемой оказалась координация. Предоставление агентам равных прав приводило к низкой производительности: лишь двадцать агентов работали эффективно, в то время как остальные ожидали освобождения ресурсов. Более того, без четкой иерархии агенты избегали сложных задач, предпочитая мелкие и безопасные изменения.

Решением стало разделение ролей: планировщики отвечают за анализ кода и создание задач, а воркеры – за их выполнение и внесение изменений. Для проверки системы агентам на базе GPT-5.2 было поручено разработать браузер с нуля.

В результате недельной непрерывной работы было сгенерировано более трех миллионов строк кода. Движок рендеринга, написанный на Rust, включает парсинг HTML, каскад CSS, компоновку, отрисовку текста и собственную виртуальную машину JavaScript. По словам генерального директора Cursor Майкла Труэлла, браузер быстро и в основном корректно отображает простые сайты, хотя до уровня WebKit или Chromium еще далеко.

GPT-5.2 продемонстрировала значительное превосходство над другими моделями при выполнении длительных автономных задач, сохраняя концентрацию, следуя инструкциям и избегая отклонений. Opus 4.5, по наблюдениям Cursor, склонна к преждевременной остановке и упрощению задач. При этом разные модели лучше подходят для разных ролей: GPT-5.2 превосходит GPT-5.1-codex в планировании.

Главный вывод команды: качество промптов важнее выбора модели или архитектуры системы. Координация сотен агентов, предотвращение ошибок и поддержание фокуса на протяжении недель потребовали обширных экспериментов с инструкциями. Система еще не идеальна – агенты иногда работают слишком долго, а перезапуски необходимы для борьбы с “туннельным мышлением”. Однако, эксперимент показал, что масштабирование возможно.