Компания OpenAI опубликовала результаты исследования, целью которого были способности ИИ к самостоятельному написанию кода и потенциальной замене разработчиков. Исследование опубликовано в базе препринтов arXiv. Инженеры компании протестировали две модели ИИ от OpenAI: o1, GPT-4o, а также Claude 3.5 Sonnet от Anthropic. Модели оценивались с помощью бенчмарка SWE-Lancer, состоящего из 1400 заданий для программистов с фриланс-сайта Upwork. В ходе тестирования моделям был запрещён доступ в интернет, что исключало возможность «обмана» путём копирования решений из Сети. Исследователи обнаружили, что модели ИИ, хотя и продемонстрировали «некоторую компетентность», всё же не смогли заменить даже начинающих программистов. Модели допускали ошибки и «с трудом понимали контекст», что приводило к неправильным или недостаточным решениям. При этом модель Claude 3.5 Sonnet показала наилучшие результаты, однако большинство ответов и этой нейросети всё равно были неверными. Исследователи пришли к вывод
Исследование OpenAI опровергло способности ИИ заменить программистов
26 февраля 202526 фев 2025
6
1 мин