Компания OpenAI запустила SWE-Lancer — новый бенчмарк для оценки возможностей передовых языковых моделей ИИ в реальных задачах фриланс-разработки. Данные для тестирования были собраны из более чем 1400 заданий на платформе Upwork, их общая стоимость составила 1 миллион долларов. Переведено, но не озвучено командой LearnMore.tech с сайта https://www.infoq.com/ В этот набор вошли как самостоятельные задачи по программированию, так и управленческие решения, различающиеся по сложности и оплате, чтобы максимально точно смоделировать реальные условия фриланса. Проект SWE-Lancer делает акцент на строгие методики тестирования, которые учитывают экономическую ценность и сложность задач в сфере разработки программного обеспечения. Для оценки эффективности моделей используются передовые методы сквозного тестирования, подтверждённые профессиональными инженерами. Несмотря на прогресс в развитии языковых моделей, первые результаты показали, что современные ИИ-системы пока не справляются с большинств
OpenAI представляет бенчмарк для разработки программного обеспечения
14 марта 202514 мар 2025
15
2 мин