15 подписчиков

OpenAI запустила модель GPT-5.3-Codex: более быструю агентскую модель кодирования

3 дня назад3 дня назад

2 мин

Компания OpenAI только что представила GPT-5.3-Codex — новую агентскую модель кодирования, которая расширяет возможности Codex, позволяя ему не только писать и проверять код, но и выполнять широкий спектр задач на компьютере. Основные характеристики модели Модель объединяет возможности кодирования GPT-5.2-Codex с логическими и профессиональными знаниями GPT-5.2 в единую систему и работает на 25% быстрее для пользователей Codex благодаря улучшениям инфраструктуры и выводов. Для разработчиков GPT-5.3-Codex позиционируется как агент кодирования, который может выполнять длительные задачи, связанные с исследованиями, использованием инструментов и сложным исполнением, оставаясь при этом управляемым «как коллега» во время выполнения. Оценка агентских возможностей и результатов тестирования OpenAI оценивает GPT-5.3-Codex по четырём ключевым тестам, которые нацелены на реальное кодирование и агентское поведение: SWE-Bench Pro, Terminal-Bench 2.0, OSWorld-Verified и GDPval. На SWE-Bench Pr

Основные характеристики модели

Модель объединяет возможности кодирования GPT-5.2-Codex с логическими и профессиональными знаниями GPT-5.2 в единую систему и работает на 25% быстрее для пользователей Codex благодаря улучшениям инфраструктуры и выводов.

Для разработчиков GPT-5.3-Codex позиционируется как агент кодирования, который может выполнять длительные задачи, связанные с исследованиями, использованием инструментов и сложным исполнением, оставаясь при этом управляемым «как коллега» во время выполнения.

Оценка агентских возможностей и результатов тестирования

OpenAI оценивает GPT-5.3-Codex по четырём ключевым тестам, которые нацелены на реальное кодирование и агентское поведение: SWE-Bench Pro, Terminal-Bench 2.0, OSWorld-Verified и GDPval.

На SWE-Bench Pro, устойчивом к загрязнениям тесте, построенном на реальных проблемах и запросах GitHub на четырёх языках, GPT-5.3-Codex достигает 56,8% с высокими усилиями по рассуждению. Это немного лучше, чем у GPT-5.2-Codex и GPT-5.2 на том же уровне усилий.

Terminal-Bench 2.0, который измеряет навыки работы с терминалом, необходимые агентам кодирования, показывает более значительный разрыв: GPT-5.3-Codex достигает 77,3%, что значительно выше, чем у предыдущих моделей.

На OSWorld-Verified, агентском тесте использования компьютера, где агенты выполняют задачи по повышению производительности в визуальной среде рабочего стола, GPT-5.3-Codex достигает 64,7%. Люди набирают около 72% в этом тесте, что даёт приблизительную точку отсчёта на уровне человека.

Для профессиональной работы с знаниями GPT-5.3-Codex оценивается с помощью GDPval, оценки, представленной в 2025 году, которая измеряет производительность по чётко заданным задачам в 44 профессиях. GPT-5.3-Codex достигает 70,9% побед или ничьих на GDPval, что соответствует GPT-5.2 при высоких усилиях по рассуждению.

Применение за пределами кодирования

OpenAI подчёркивает, что разработчики программного обеспечения, дизайнеры, менеджеры по продуктам и специалисты по данным выполняют широкий спектр задач помимо генерации кода. GPT-5.3-Codex создан для помощи на протяжении всего жизненного цикла разработки программного обеспечения: отладки, развёртывания, мониторинга, написания PRD, редактирования текстов, проведения пользовательских исследований, тестов и метрик.

С помощью пользовательских навыков, аналогичных тем, что использовались в предыдущих экспериментах GDPval, GPT-5.3-Codex создаёт полноценные рабочие продукты. Примеры в официальном блоге OpenAI включают слайды с финансовыми советами, документ для обучения розничной торговле, таблицу анализа NPV и презентацию в сфере моды.

Интерактивный сотрудник в приложении Codex

По мере того как модели становятся более совершенными, OpenAI видит основную задачу в обеспечении контроля...