1832 подписчика

Claude Opus 4.6 от Anthropic потратил 20 000 долларов, пытаясь написать «C compiler»

10 февраля10 фев

3 мин

AI-агенты создали C-компилятор, что вызвало восторг разработчика, но и опасения. Эксперимент с Opus 4.6 показал возможности автономной разработки, но и ее риски. — theregister.com Усилия исследователя Anthropic по созданию C-компилятора с помощью недавно выпущенной модели Opus 4.6 вызвали у него «волнение», «обеспокоенность» и «беспокойство». У многих наблюдателей на GitHub это вызвало, мягко говоря, скептицизм. Николас Карлини, исследователь команды Safeguards в Anthropic, подробно описал эксперимент с так называемыми «командами агентов» в блоге, который совпал с официальным выпуском Opus 4.6. Он сообщил, что «поручил 16 агентам написать C-компилятор на основе Rust с нуля, способный компилировать ядро Linux. После почти 2000 сессий Claude Code и затрат на API в размере 20 000 долларов команда агентов создала компилятор объемом 100 000 строк, который может собирать Linux 6.9 на x86, ARM и RISC-V». По его словам, с командами агентов «несколько экземпляров Claude работают параллельно над

Усилия исследователя Anthropic по созданию C-компилятора с помощью недавно выпущенной модели Opus 4.6 вызвали у него «волнение», «обеспокоенность» и «беспокойство».

У многих наблюдателей на GitHub это вызвало, мягко говоря, скептицизм.

Николас Карлини, исследователь команды Safeguards в Anthropic, подробно описал эксперимент с так называемыми «командами агентов» в блоге, который совпал с официальным выпуском Opus 4.6.

Он сообщил, что «поручил 16 агентам написать C-компилятор на основе Rust с нуля, способный компилировать ядро Linux. После почти 2000 сессий Claude Code и затрат на API в размере 20 000 долларов команда агентов создала компилятор объемом 100 000 строк, который может собирать Linux 6.9 на x86, ARM и RISC-V».

По его словам, с командами агентов «несколько экземпляров Claude работают параллельно над общей кодовой базой без активного вмешательства человека».

Одной из ключевых задач было устранение необходимости «оператора, который должен быть онлайн и готов работать совместно», что, как мы предполагаем, означает устранение необходимости для Claude Code ждать, пока человек скажет ему, что делать дальше.

«Чтобы добиться устойчивого, автономного прогресса, я создал систему, которая помещает Claude в простой цикл… Когда он завершает одну задачу, он немедленно приступает к следующей». Представьте, если бы люди применили такой подход.

Карлини продолжил: «Я предоставляю каждому агенту Claude решать, как действовать. В большинстве случаев Claude выбирает «следующую наиболее очевидную» проблему». Это принесло ряд уроков, в том числе необходимость «писать тесты чрезвычайно высокого качества».

Читателям также посоветовали «поставить себя на место Claude». Это означает, что «тестовая система не должна выводить тысячи бесполезных байтов», чтобы Claude было легче найти то, что ему нужно.

Кроме того, «Claude не умеет определять время и, оставшись один, будет с удовольствием тратить часы на прогон тестов вместо того, чтобы добиваться прогресса».

Что может заставить вас почувствовать, что работа с Claude ближе к работе с обычным человеком, чем вы думали. Но каков был итог всего этого?

«За почти 2000 сессий Claude Code в течение двух недель Opus 4.6 потребил 2 миллиарда входных токенов и сгенерировал 140 миллионов выходных токенов, общая стоимость составила чуть менее 20 000 долларов».

Карлини отметил, что это сделало проект «чрезвычайно дорогим» по сравнению с самыми дорогими планами Claude Max. «Но эта общая сумма — лишь доля того, что мне пришлось бы потратить на создание этого самостоятельно, не говоря уже о целой команде».

Другие уроки? «Компилятор успешно собирает многие проекты, но не все. Это еще не замена реального компилятора». Более того, «сгенерированный код не очень эффективен».

Он добавил, что качество кода Rust «разумно, но… далеко не такое, какое мог бы произвести опытный Rust-программист».

Карлини заключил: «Команды агентов демонстрируют возможность автономной реализации сложных проектов».

Но, будучи бывшим пентестером, он отметил, что полностью автономная разработка представляет реальные риски. «Мысль о том, что программисты развертывают программное обеспечение, которое они никогда лично не проверяли, вызывает серьезную обеспокоенность». В конечном итоге эксперимент «волнует меня, [но] также заставляет чувствовать себя неуютно».

Комментарии на GitHub были менее однозначными, не в последнюю очередь потому, что, по мнению пользователей, цена в 20 000 долларов игнорирует ряд других факторов, таких как огромный объем кода других программистов, на котором изначально обучалась модель.

Как отметил mohswell: «Если бы я пошел в супермаркет, украл немного каждого хлеба, который у них был, и смешал его, никто бы не сказал, что я сделал хлеб с нуля. Они бы сказали, что я вор. Если это «с нуля», то мое приготовление — это «от фермы к столу».

В то время как Sambit003 высказал мнение: «Раздел комментариев и сама проблема — это момент «абсолютного кино», через который все проходят 😂… чем дольше я вижу код, сгенерированный ИИ… тем безопаснее я себя чувствую. 😂 У нас все еще есть работа (еще долгие годы)… просто наслаждайтесь хайпом, приятель».

Serkosal добавил жалобно: «ладно, хорошо, может @claude найти мне девушку? Нет? Тогда мне не интересно».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Joe Fay

Оригинал статьи