426 подписчиков

Битва титанов: Claude Opus 4.6 vs GPT-5.3-Codex

5 февраля5 фев

2 мин

Тут забавная ситуация, антропики выкатили свой новый опус 4.6 и сразу в след за ними опен аи выпустили кодекс 5.3, обе модели подняли планку в своих ветвях, так что логичнее будет обозреть сразу 2 модели в одном посте Первые 5 вложений относятся к опусу, следующие 5 к кодексу 🔘Claude Opus 4.6 Технические характеристики: - 1M токенов контекста (бета) - 128K токенов на выход - Улучшили навыки кодирования, планирования и отладки - Способность работать в крупных кодовых базах Рекордные результаты: - #1 на Terminal-Bench 2.0 (агентское кодирование) - Лидер на Humanity's Last Exam - +144 Elo перед GPT-5.2 на GDPval-AA - 76% на MRCR v2 (поиск информации в 1M токенов) vs 18.5% у Sonnet 4.5 Практическое применение: - Интеграция с Excel и PowerPoint (новая функция) - Автономная работа в Cowork - мультизадачность без участия человека - Команды агентов в Claude Code для параллельной работы 🔘GPT-5.3-Codex Кодекс 5.3 сам участвовал в собственном создании😏 я так долго ждал что кто то выпуст

Первые 5 вложений относятся к опусу, следующие 5 к кодексу

🔘Claude Opus 4.6

Технические характеристики:

- 1M токенов контекста (бета)

- 128K токенов на выход

- Улучшили навыки кодирования, планирования и отладки

- Способность работать в крупных кодовых базах

Рекордные результаты:

- #1 на Terminal-Bench 2.0 (агентское кодирование)

- Лидер на Humanity's Last Exam

- +144 Elo перед GPT-5.2 на GDPval-AA

- 76% на MRCR v2 (поиск информации в 1M токенов) vs 18.5% у Sonnet 4.5

Практическое применение:

- Интеграция с Excel и PowerPoint (новая функция)

- Автономная работа в Cowork - мультизадачность без участия человека

- Команды агентов в Claude Code для параллельной работы

🔘GPT-5.3-Codex

Кодекс 5.3 сам участвовал в собственном создании😏 я так долго ждал что кто то выпустит серьезную модель таким путем, ну к сожалению не полностью сам себя написал

Возможности:

Фронтирные агентские способности:

- Рекорд на SWE-Bench Pro (реальная разработка ПО, 4 языка)

- Лидер на Terminal-Bench 2.0 с наименьшим использованием токенов

- +70% прирост на OSWorld (использование компьютера в визуальной среде)

Скорость:

- На 25% быстрее предыдущих версий

Автономное создание сложных приложений:

- Создание полнофункциональных игр и приложений с нуля за несколько дней

- Итеративная разработка на протяжении миллионов токенов

- Улучшенное понимание намерений для веб-разработки

Интерактивный коллаборатор: