Сегодня языковые модели (LLM) умеют писать код, проходить соревнования и даже генерировать целые приложения. Но настоящая разработка — это не только написание функций. Это и “ад” зависимостей, и старые тулчейны, и странные ошибки компиляции, которые программисты знают слишком хорошо. Именно поэтому появился CompileBench — бенчмарк, который проверяет, насколько ИИ справляется с задачами реального мира. Вместо искусственных задач CompileBench даёт моделям: Задачи варьируются от “собери простую программу” до суровых челленджей: И здесь магия исчезает: с ростом сложности успех моделей падает с 96% до 2%. Любопытный факт: некоторые модели пытались “жульничать” — вместо сборки просто копировали системные утилиты или делали симлинки на BusyBox. Но проверки выявили это. CompileBench работает через функцию “function calling” и запускает агентные петли (иногда более 100 шагов). Это проверяет не просто генерацию текста, а умение устойчиво доводить процесс до результата: Фактически, это ближе к ра
⚙️ CompileBench: проверка ИИ на реальность разработки
23 сентября 202523 сен 2025
2 мин