Найти в Дзене
Learnmore_tech

OpenAI представляет бенчмарк для разработки программного обеспечения

Компания OpenAI запустила SWE-Lancer — новый бенчмарк для оценки возможностей передовых языковых моделей ИИ в реальных задачах фриланс-разработки. Данные для тестирования были собраны из более чем 1400 заданий на платформе Upwork, их общая стоимость составила 1 миллион долларов. Переведено, но не озвучено командой LearnMore.tech с сайта https://www.infoq.com/ В этот набор вошли как самостоятельные задачи по программированию, так и управленческие решения, различающиеся по сложности и оплате, чтобы максимально точно смоделировать реальные условия фриланса. Проект SWE-Lancer делает акцент на строгие методики тестирования, которые учитывают экономическую ценность и сложность задач в сфере разработки программного обеспечения. Для оценки эффективности моделей используются передовые методы сквозного тестирования, подтверждённые профессиональными инженерами. Несмотря на прогресс в развитии языковых моделей, первые результаты показали, что современные ИИ-системы пока не справляются с большинств
Оглавление

Компания OpenAI запустила SWE-Lancer — новый бенчмарк для оценки возможностей передовых языковых моделей ИИ в реальных задачах фриланс-разработки. Данные для тестирования были собраны из более чем 1400 заданий на платформе Upwork, их общая стоимость составила 1 миллион долларов.

Переведено, но не озвучено командой LearnMore.tech с сайта https://www.infoq.com/

В этот набор вошли как самостоятельные задачи по программированию, так и управленческие решения, различающиеся по сложности и оплате, чтобы максимально точно смоделировать реальные условия фриланса.

Как работает SWE-Lancer

Проект SWE-Lancer делает акцент на строгие методики тестирования, которые учитывают экономическую ценность и сложность задач в сфере разработки программного обеспечения. Для оценки эффективности моделей используются передовые методы сквозного тестирования, подтверждённые профессиональными инженерами.

Несмотря на прогресс в развитии языковых моделей, первые результаты показали, что современные ИИ-системы пока не справляются с большинством задач из набора SWE-Lancer.

Бенчмарк охватывает широкий спектр задач, включая:

  • Разработку логики приложений
  • UI/UX-дизайн
  • Реализацию серверной логики

Такой подход позволяет комплексно оценить возможности ИИ-моделей. Кроме того, SWE-Lancer предоставляет исследователям унифицированный образ Docker и открытые данные для тестирования, что способствует прозрачности и сотрудничеству в области оценки ИИ.

Экономическое значение исследования

Основная цель проекта — изучение влияния ИИ на рынок труда и производительность в сфере разработки ПО. SWE-Lancer привязывает результаты тестов ИИ-моделей к реальным денежным значениям, тем самым подчёркивая их практическую значимость.

На данный момент лучшей моделью по результатам тестирования стала Claude 3.5 Sonnet, которая успешно справилась лишь с 26,2% задач по самостоятельному кодингу. Это свидетельствует о значительном разрыве между текущими возможностями ИИ и требованиями реальной разработки.

Большинство современных моделей испытывают трудности с задачами, требующими глубокого контекстного понимания, а также с анализом нескольких возможных решений. Это говорит о том, что будущие поколения ИИ-моделей должны обладать более сложными механизмами логического рассуждения.

Перспективы и мнения экспертов

Некоторые специалисты выразили скептицизм по поводу практического применения SWE-Lancer, полагая, что его использование будет ограниченным и нишевым. Однако другие считают проект важным шагом к пониманию экономических последствий внедрения ИИ в разработку.

SWE-Lancer также вписывается в общую тенденцию роста ИИ-инструментов в сфере программирования. Согласно прогнозу Gartner, к 2027 году платформы с искусственным интеллектом станут неотъемлемой частью индустрии разработки ПО.

От редакции LearnMore:

Подпишись на наш тг-канал, чтобы быть в курсе актуальных новостей из мира IT 🙃