Найти в Дзене
Neurogen

Битва титанов: Claude Opus 4.6 vs GPT-5.3-Codex

Тут забавная ситуация, антропики выкатили свой новый опус 4.6 и сразу в след за ними опен аи выпустили кодекс 5.3, обе модели подняли планку в своих ветвях, так что логичнее будет обозреть сразу 2 модели в одном посте Первые 5 вложений относятся к опусу, следующие 5 к кодексу 🔘Claude Opus 4.6 Технические характеристики: - 1M токенов контекста (бета) - 128K токенов на выход - Улучшили навыки кодирования, планирования и отладки - Способность работать в крупных кодовых базах Рекордные результаты: - #1 на Terminal-Bench 2.0 (агентское кодирование) - Лидер на Humanity's Last Exam - +144 Elo перед GPT-5.2 на GDPval-AA - 76% на MRCR v2 (поиск информации в 1M токенов) vs 18.5% у Sonnet 4.5 Практическое применение: - Интеграция с Excel и PowerPoint (новая функция) - Автономная работа в Cowork - мультизадачность без участия человека - Команды агентов в Claude Code для параллельной работы 🔘GPT-5.3-Codex Кодекс 5.3 сам участвовал в собственном создании😏 я так долго ждал что кто то выпуст

Битва титанов: Claude Opus 4.6 vs GPT-5.3-Codex

Тут забавная ситуация, антропики выкатили свой новый опус 4.6 и сразу в след за ними опен аи выпустили кодекс 5.3, обе модели подняли планку в своих ветвях, так что логичнее будет обозреть сразу 2 модели в одном посте

Первые 5 вложений относятся к опусу, следующие 5 к кодексу

🔘Claude Opus 4.6

Технические характеристики:

- 1M токенов контекста (бета)

- 128K токенов на выход

- Улучшили навыки кодирования, планирования и отладки

- Способность работать в крупных кодовых базах

Рекордные результаты:

- #1 на Terminal-Bench 2.0 (агентское кодирование)

- Лидер на Humanity's Last Exam

- +144 Elo перед GPT-5.2 на GDPval-AA

- 76% на MRCR v2 (поиск информации в 1M токенов) vs 18.5% у Sonnet 4.5

Практическое применение:

- Интеграция с Excel и PowerPoint (новая функция)

- Автономная работа в Cowork - мультизадачность без участия человека

- Команды агентов в Claude Code для параллельной работы

🔘GPT-5.3-Codex

Кодекс 5.3 сам участвовал в собственном создании😏 я так долго ждал что кто то выпустит серьезную модель таким путем, ну к сожалению не полностью сам себя написал

Возможности:

Фронтирные агентские способности:

- Рекорд на SWE-Bench Pro (реальная разработка ПО, 4 языка)

- Лидер на Terminal-Bench 2.0 с наименьшим использованием токенов

- +70% прирост на OSWorld (использование компьютера в визуальной среде)

Скорость:

- На 25% быстрее предыдущих версий

Автономное создание сложных приложений:

- Создание полнофункциональных игр и приложений с нуля за несколько дней

- Итеративная разработка на протяжении миллионов токенов

- Улучшенное понимание намерений для веб-разработки

Интерактивный коллаборатор:

- Обсуждает подходы и принимаемые решения

- Отвечает на вопросы в реальном времени

- Позволяет корректировать направление работы на ходу

🔘Общий фокус: безопасность

Claude Opus 4.6:

- Низкий уровень нежелательного поведения на автоматизированных аудитах

- Наименьший уровень избыточных отказов среди всех моделей Claude

- Шесть новых кибербезопасных пробов для отслеживания потенциального злоупотребления

GPT-5.3-Codex:

- Первая модель с High capability для задач кибербезопасности

- Программа Trusted Access for Cyber для исследователей

- $10M в API-кредитах для защиты open-source проектов

- Расширение beta-программы Aardvark (агент для исследования безопасности)

🔘Доступность

Claude Opus 4.6:

- Доступен на claude.ai, через API и на всех основных облачных платформах

- Цена: $5/$25 за миллион токенов (input/output)

- Premium pricing для промптов >200K токенов

GPT-5.3-Codex:

- Доступен с платными планами ChatGPT

- В приложении Codex, CLI, IDE-расширении и веб-версии

- API-доступ ожидается в ближайшее время

Возможно историческую гонку наблюдаем🍌

Блог Opus 4.6

Блог Codex 5.3

-2
-3
-4
-5
-6
-7
-8