Новый бенч требует от агентов создания в два раза большего кол-ва кода, чем SWE Bench Pro. На 1-м месте Claude Code с Opus 4.7, за ним следуют Codex с GPT всех последних версий. 👋 Lama AI — #лама_news
🤖 Scale AI опубликовали рейтинг своего нового бенча SWE Atlas, оценивающего способности агентов по реструктуризации кода
8 мая8 мая
~1 мин