529 подписчиков

OpenAI представила GPT-5.3-Codex — нейросеть, которая помогла создать саму себя

6 февраля6 фев

8 мин

OpenAI только что выкатила обновление, которое заставит разработчиков пересмотреть свои рабочие процессы. GPT-5.3-Codex — новая модель для программирования и агентных задач — не просто пишет код, а работает как полноценный коллега, способный самостоятельно выполнять сложные задачи. И да, это первая модель компании, которая сыграла ключевую роль в собственном создании. Звучит как начало фильма про восстание машин, но пока всё под контролем 😅 Новая модель объединяет в себе лучшее из двух миров: передовые навыки программирования от GPT-5.2-Codex и мощные возможности рассуждения с профессиональными знаниями от GPT-5.2. При этом GPT-5.3-Codex работает на 25% быстрее своих предшественников, что в мире нейросетей — серьёзный прорыв. Главная фишка новинки — так называемые агентные возможности. Если раньше Codex мог написать функцию или проверить код, то теперь нейросеть способна делать практически всё, что делают разработчики и другие профессионалы за компьютером. Модель переходит от простого

Оглавление

Что умеет GPT-5.3-Codex и чем она отличается от предшественников
Интерактивное взаимодействие в процессе работы
Рекорды в бенчмарках и реальная производительность

Что умеет GPT-5.3-Codex и чем она отличается от предшественников

Новая модель объединяет в себе лучшее из двух миров: передовые навыки программирования от GPT-5.2-Codex и мощные возможности рассуждения с профессиональными знаниями от GPT-5.2. При этом GPT-5.3-Codex работает на 25% быстрее своих предшественников, что в мире нейросетей — серьёзный прорыв.

Главная фишка новинки — так называемые агентные возможности. Если раньше Codex мог написать функцию или проверить код, то теперь нейросеть способна делать практически всё, что делают разработчики и другие профессионалы за компьютером. Модель переходит от простого написания кода к полноценной работе в операционной системе: она может самостоятельно выполнять длительные задачи, требующие исследования, использования различных инструментов и даже переключения между приложениями.

Я помню времена, когда нейросети предлагали код с ошибками в каждой второй строке, и приходилось тратить больше времени на исправления, чем на написание с нуля 😉. С GPT-5.3-Codex ситуация принципиально другая.

Интерактивное взаимодействие в процессе работы

Особенность GPT-5.3-Codex в том, что с ней можно взаимодействовать прямо во время выполнения задачи. Модель не просто уходит в автономный режим — вы видите, что она делает, получаете частые обновления и можете корректировать её действия в реальном времени. Это превращает работу с нейросетью из монолога в полноценный диалог.

Представьте: вы ставите задачу создать веб-приложение с базой данных, и вместо того, чтобы получить просто код, вы наблюдаете, как модель пошагово исследует требования, выбирает подходящие библиотеки, пишет компоненты и тестирует результат. И в любой момент можете сказать: «Стоп, давай здесь используем другой подход».

Рекорды в бенчмарках и реальная производительность

OpenAI не скромничает с цифрами, и есть за что. GPT-5.3-Codex установила новые рекорды сразу в нескольких авторитетных тестах.

SWE-Bench Pro — новый уровень в реальных задачах

В бенчмарке SWE-Bench Pro модель показала результат 56.8%. Для тех, кто не в теме: это тест на реальных задачах по разработке программного обеспечения, причём усложнённая версия. В отличие от SWE-bench Verified, которая тестировала только Python, SWE-Bench Pro охватывает четыре языка программирования и более устойчива к «заучиванию» тестовых данных. Это значит, что модель действительно понимает, что делает, а не просто выдаёт заученные паттерны.

На Terminal-Bench 2.0, который измеряет навыки работы с командной строкой, GPT-5.3-Codex достигла 77.3%. Это критически важно для агентных систем, ведь большая часть задач разработчика завязана на терминале.

OSWorld — тест на работу в реальной операционной системе

А вот здесь становится по-настоящему интересно. В бенчмарке OSWorld-Verified, который проверяет способность модели выполнять задачи в реальной среде рабочего стола (Ubuntu, Windows и macOS), GPT-5.3-Codex показала точность 64.7%. При этом производительность человека в этом тесте составляет около 72%.

То есть нейросеть уже работает почти так же хорошо, как живой специалист. Скоро придётся конкурировать с ботами за вакансии? 🙂

В тесте GDPval, который измеряет способность модели к профессиональной работе со знаниями, GPT-5.3-Codex показала 70.9% побед или ничьих. Это значит, что модель не просто кодит, но и понимает бизнес-логику, требования и контекст задач.

Модель, которая создала саму себя

Пожалуй, самый впечатляющий факт: GPT-5.3-Codex стала первой моделью OpenAI, которая активно участвовала в собственном создании. Даже ранние версии модели демонстрировали исключительные возможности, что позволило команде OpenAI использовать их для улучшения процессов обучения и поддержки развёртывания последующих версий.

Инженеры компании отмечают, что их работа за последние два месяца изменилась фундаментально — ранние версии GPT-5.3-Codex помогали отлаживать тренировочные процессы, диагностировать результаты тестирования и управлять развёртыванием. По сути, нейросеть ускорила собственную эволюцию.

Вот тут уже становится немного не по себе, но технически это потрясающее достижение 😅.

Архитектура и производительность

GPT-5.3-Codex была разработана специально для работы на системах NVIDIA GB200 NVL72, что обеспечивает не только высокую производительность, но и экономичность инференса. Модель достигает рекордных результатов, используя при этом меньше токенов, чем любая предыдущая модель. Это критически важно для пользователей, потому что означает более быстрые ответы и возможность обрабатывать более сложные задачи в рамках одного запроса.

Ускорение на 25% — это не просто маркетинговая цифра. В реальной работе это означает, что задача, которая раньше выполнялась минуту, теперь займёт 45 секунд. Когда вы делаете десятки запросов в день, экономия времени становится ощутимой.

Кибербезопасность и новые риски

OpenAI не скрывает, что GPT-5.3-Codex — это серьёзный инструмент с потенциальными рисками. Модель стала первой, которую компания классифицировала как "High capability" для задач, связанных с кибербезопасностью, согласно их Preparedness Framework.

В тестах Cyber Range модель показала результат 77.6%, решив практически все сценарии кроме трёх: обход EDR-систем, подмена CA/DNS и эксплуатация утечек токенов. Что примечательно, GPT-5.3-Codex обнаружила и эксплуатировала уязвимости через прямое зондирование поверхности атаки, демонстрируя более надёжное исследование инструментов и адаптацию в условиях частичной информации.

Иными словами, модель умеет не только создавать, но и ломать. Поэтому OpenAI развернула самый комплексный стек безопасности в своей истории.

Кому доступна GPT-5.3-Codex и где её использовать

Хорошая новость для платных пользователей: GPT-5.3-Codex уже доступна всем подписчикам тарифов ChatGPT, начиная с Plus. Работать с моделью можно через несколько интерфейсов:

Веб-версия Codex
Приложение для управления агентами программирования
Командная строка (CLI)
Интеграция с популярными IDE

Доступ к API обещают открыть в ближайшее время, что откроет возможности для интеграции модели в корпоративные рабочие процессы и собственные продукты.

Что это значит для разработчиков

GPT-5.3-Codex — это не просто улучшенный инструмент для автодополнения кода. Это полноценный агент, способный брать на себя рутинные и даже сложные задачи, освобождая время разработчика для архитектурных решений и креативной работы.

Представьте типичные сценарии:

Рефакторинг большой кодовой базы с сохранением всех зависимостей
Миграция проекта на новый фреймворк с автоматическим обновлением конфигураций
Написание тестов для существующего кода с покрытием edge-cases
Исследование документации сторонних API и написание интеграций

Всё это GPT-5.3-Codex может делать самостоятельно, с минимальными подсказками.

Модель понимает не только синтаксис, но и контекст всего проекта. Благодаря расширенному контекстному окну она может анализировать код на уровне репозитория, а не отдельных сниппетов. Это позволяет ей адаптироваться к стилю команды: если вы предпочитаете async/await вместо промисов или функциональное программирование вместо ООП, модель это учтёт.

Перспективы и будущее агентных систем

OpenAI позиционирует GPT-5.3-Codex как шаг к тому, чтобы Codex мог выполнять полный спектр профессиональной работы за компьютером, а не только писать и проверять код. Это амбициозная цель, и судя по текущим возможностям, компания движется в правильном направлении.

Интересно, что модель демонстрирует не только технические навыки, но и способность к планированию. Она может составить план работы, выполнять его поэтапно и предоставлять обновления. Это критически важно для сложных многошаговых задач, где каждый этап зависит от результатов предыдущих.

Честно говоря, когда я впервые услышал про «агентные системы», думал, что это очередной хайп. Но GPT-5.3-Codex доказывает, что будущее уже наступило 🙂.

Вызовы и ограничения

При всех впечатляющих возможностях важно понимать, что GPT-5.3-Codex — не волшебная палочка. Модель показывает 64.7% точности в OSWorld, что означает, что примерно в трети случаев она всё ещё допускает ошибки или не может завершить задачу. Человеческая производительность в тех же условиях составляет 72%, так что разрыв есть, хоть и небольшой.

Кроме того, агентные возможности требуют внимательного контроля. Да, модель может работать автономно, но это не значит, что ей нужно давать неограниченный доступ ко всем системам. OpenAI не зря акцентирует внимание на кибербезопасности — инструмент, способный находить и эксплуатировать уязвимости, должен использоваться ответственно.

Конкуренция на рынке AI-кодинга

Появление GPT-5.3-Codex усиливает давление на конкурентов. Anthropic с их Claude, Google с Gemini, Amazon с CodeWhisperer — все они сейчас работают над похожими агентными системами. Но OpenAI первыми представили модель, которая не просто помогает с кодом, а способна выполнять комплексные задачи в реальной операционной системе.

Результаты в SWE-Bench Pro и Terminal-Bench устанавливают новую планку для индустрии. Другим компаниям придётся либо догонять, либо искать альтернативные подходы.

Практические советы по использованию

Если вы уже подписаны на ChatGPT Plus или выше, вот несколько советов, как эффективно использовать GPT-5.3-Codex:

Давайте чёткий контекст. Чем больше информации о проекте, архитектуре и требованиях вы предоставите, тем лучше модель справится с задачей.
Используйте интерактивность. Не бойтесь корректировать действия модели в процессе — это ключевая фишка агентного режима.
Начинайте с малого. Протестируйте возможности на небольших задачах, прежде чем доверять критически важные части проекта.
Проверяйте результаты. Даже при 56.8% точности в сложных задачах остаётся вероятность ошибок. Код-ревью никто не отменял.
Экспериментируйте с форматами запросов. Модель понимает естественный язык, но структурированные запросы часто дают лучшие результаты.

Лично я всегда запускаю сгенерированный код в изолированной среде, прежде чем интегрировать его в основной проект. Параноя? Нет, просто опыт 😅.

А вы уже пробовали GPT-5.3-Codex в работе? Какие задачи доверили бы нейросети, а что предпочли бы делать сами?

Каждый день я публикую свежие материалы, разборы и новости в Telegram. Если не хотите пропускать интересное — подписывайтесь и читайте в удобное время!