1 подписчик

🤖 Scale AI опубликовали рейтинг своего нового бенча SWE Atlas, оценивающего способности агентов по реструктуризации кода

8 мая8 мая

~1 мин

Новый бенч требует от агентов создания в два раза большего кол-ва кода, чем SWE Bench Pro. На 1-м месте Claude Code с Opus 4.7, за ним следуют Codex с GPT всех последних версий. 👋 Lama AI — #лама_news

Новый бенч требует от агентов создания в два раза большего кол-ва кода, чем SWE Bench Pro.

На 1-м месте Claude Code с Opus 4.7, за ним следуют Codex с GPT всех последних версий.

👋 Lama AI — #лама_news