Найти в Дзене
Dinkin.ru — Нейросети и AI

Claude 4.6 vs GPT-5.3 Codex: Честный Разбор Войны ИИ-Титанов 2026

5 февраля 2026 года войдет в историю. В один день две крупнейшие компании в области искусственного интеллекта — Anthropic и OpenAI — выпустили свои новые флагманы. Claude Opus 4.6 и GPT-5.3 Codex. Интернет взорвался. Разработчики по всему миру бросили работу и начали тестировать. Мы сделали то же самое — и вот честный, без маркетинговой воды отчет о том, что произошло. Давайте честно: за последние два года мы видели десятки "революционных" релизов. GPT-4, Claude 3, Gemini Ultra... Каждый раз нам обещали, что "это изменит всё". Но 5 февраля 2026 — это действительно особенный случай. И вот почему. Впервые в истории ИИ-модель помогала создавать саму себя. GPT-5.3 Codex — первая модель OpenAI, которая участвовала в собственной разработке: отлаживала тренировочные прогоны, помогала с деплоем, анализировала результаты оценок. Это не просто маркетинговый трюк — это фундаментальный сдвиг. Мы перешли от "ИИ как инструмент" к "ИИ как коллега". А Anthropic? Они пошли другим путём. Вместо скорости
Оглавление

5 февраля 2026 года войдет в историю. В один день две крупнейшие компании в области искусственного интеллекта — Anthropic и OpenAI — выпустили свои новые флагманы. Claude Opus 4.6 и GPT-5.3 Codex. Интернет взорвался. Разработчики по всему миру бросили работу и начали тестировать. Мы сделали то же самое — и вот честный, без маркетинговой воды отчет о том, что произошло.

-2

Почему это важно именно сейчас?

Давайте честно: за последние два года мы видели десятки "революционных" релизов. GPT-4, Claude 3, Gemini Ultra... Каждый раз нам обещали, что "это изменит всё". Но 5 февраля 2026 — это действительно особенный случай. И вот почему.

Впервые в истории ИИ-модель помогала создавать саму себя. GPT-5.3 Codex — первая модель OpenAI, которая участвовала в собственной разработке: отлаживала тренировочные прогоны, помогала с деплоем, анализировала результаты оценок. Это не просто маркетинговый трюк — это фундаментальный сдвиг. Мы перешли от "ИИ как инструмент" к "ИИ как коллега".

А Anthropic? Они пошли другим путём. Вместо скорости — глубина. Claude Opus 4.6 получил контекстное окно в 1 миллион токенов. Это примерно 750,000 слов. Для сравнения: "Война и мир" Толстого — около 580,000 слов. Вы можете загрузить в Claude целую книгу и обсуждать её, не теряя нить разговора.

Инсайт: Контекстное окно — это "рабочая память" модели. Чем оно больше, тем больше информации ИИ может держать в голове одновременно. Раньше это было узким местом всех чат-ботов.

Claude Opus 4.6: Думающий Философ

-3

Anthropic позиционирует Claude как "модель, которая думает прежде чем отвечать". И знаете что? Они не врут. В тестах Claude 4.6 показывает удивительную способность останавливаться и пересматривать своё решение, если что-то не сходится.

Главные фишки Claude 4.6

  • Контекст 1 миллион токенов: Загружайте целые кодовые базы, юридические документы, научные статьи. Модель не потеряет важные детали.
  • Минимальный "context rot": Это когда модель начинает "забывать" начало разговора по мере его продолжения. Claude 4.6 решил эту проблему. На тесте MRCR v2 (поиск "иголки в стоге сена" размером в миллион токенов) Claude набрал 76%. Для сравнения: предыдущая версия Sonnet 4.5 — всего 18.5%.
  • Режим /effort: Если модель слишком долго думает над простым вопросом, вы можете переключить её в режим "medium" и получить ответ быстрее.

Бенчмарки: Где Claude лидирует

Посмотрим на цифры. В таблице ниже — результаты на самых уважаемых публичных бенчмарках.

Бенчмарк Claude 4.6 GPT-5.3 Codex Лидер Humanity's Last Exam (с инструментами) 53.1% ~45% 🟣 Claude SWE-bench Verified (код) 80.8% ~75% 🟣 Claude BigLaw Bench (юридический анализ) 90.2% ~85% 🟣 Claude Terminal-Bench 2.0 (агентный код) 65.4% 77.3% 🟢 GPT AIME 2025 (математика) ~88% 100% 🟢 GPT

Что это значит простым языком? Claude лучше думает. Если вам нужно проанализировать сложный контракт, разобраться в запутанном коде с историей в 50 файлов или ответить на философский вопрос — Claude ваш выбор.

Безопасность: Не просто слова

Anthropic потратили много ресурсов на безопасность. Claude 4.6 — первая модель, где применили интерпретируемость: учёные буквально "заглядывают внутрь" нейросети, чтобы понять, почему она приняла то или иное решение. Это не просто проверка на вредные запросы — это попытка понять логику модели изнутри.

Также Claude 4.6 показывает самый низкий уровень "over-refusals" — когда модель отказывается отвечать на безобидные вопросы из-за ложного срабатывания фильтров. Знакомо, когда ChatGPT говорит "Я не могу помочь с этим" на простой вопрос? Claude 4.6 делает это реже всех.

GPT-5.3 Codex: Робот-Программист

-4

Если Claude — это философ, то GPT-5.3 Codex — это инженер. Он не будет часами размышлять над задачей. Он возьмёт и сделает. И сделает быстро.

Главные фишки GPT-5.3 Codex

  • На 25% быстрее предшественника: OpenAI серьёзно оптимизировали инференс. Ответы приходят заметно быстрее, особенно на длинных задачах.
  • Контекст 400K токенов с Perfect Recall: Меньше, чем у Claude? Да. Но OpenAI заявляет о "идеальной памяти" — модель не теряет информацию даже в конце длинного контекста.
  • Output limit 128K токенов: Это огромно. Вы можете попросить модель сгенерировать целую библиотеку кода за один запрос.
  • Самосовершенствование: GPT-5.3 — первая модель OpenAI, которая помогала в своём собственном создании. Это не маркетинг — это реальность.

Агентные возможности: Что это значит?

"Агентная" модель — это ИИ, который не просто отвечает на вопросы, а выполняет задачи. GPT-5.3 Codex может:

  • Искать информацию в интернете
  • Вызывать внешние API и базы данных
  • Писать, тестировать и отлаживать код
  • Управлять файловой системой
  • Работать в терминале

И всё это — автономно. Вы даёте задачу: "Напиши мне API для управления задачами, с базой данных, авторизацией и тестами". И GPT-5.3 Codex идёт и делает. Сам. Вы можете следить за процессом, задавать вопросы, корректировать — но основная работа на нём.

Инсайт: Agentive AI — это не будущее. Это настоящее. GPT-5.3 Codex уже сейчас может заменить джуниор-разработчика на рутинных задачах. Не потому что он умнее — а потому что он не устаёт, не отвлекается и работает 24/7.

Кибербезопасность: Двусторонний меч

OpenAI классифицировали GPT-5.3 Codex как модель с "High capability" в области кибербезопасности. Это значит: она умеет находить уязвимости. Хорошо это или плохо — зависит от того, кто её использует.

Для защиты OpenAI запустили программу "Trusted Access for Cyber" — специальный доступ для компаний, занимающихся защитой систем. Также внедрены автоматические мониторы и ограничения. Но давайте честно: это гонка вооружений, и пока никто не знает, кто выиграет.

А Где Остальные? Gemini 3, DeepSeek V4, Grok

-5

Было бы нечестно говорить только о двух игроках. Рынок ИИ в 2026 году — это не дуополия. Вот кто ещё заслуживает внимания.

Google Gemini 3 Pro

Google не спешат, но делают. Gemini 3 Pro — это:

  • 2 миллиона токенов контекста: Больше, чем у Claude. Но пока в бета-доступе.
  • Reasoning-first подход: Модель оптимизирована для сложных многошаговых задач.
  • Нативная интеграция с Google Workspace: Если ваша компания живёт в Google — Gemini ваш естественный выбор.

Проблема Gemini? Он доступен в основном через Google Cloud. Если вы не в экосистеме Google — придётся потрудиться с интеграцией.

DeepSeek V4 (Ожидается mid-Feb 2026)

Китайский единорог, который заставил нервничать всех. DeepSeek V4 ещё не вышел на момент написания статьи, но утечки обещают:

  • Open-weight модель: Можно будет запустить локально на двух RTX 4090. Без облака, без подписок.
  • Engram System: Новая архитектура, которая разделяет память и рассуждения. Теоретически — прорыв в эффективности.
  • Контекст 1M+ токенов: На уровне Claude.

Если DeepSeek V4 выполнит обещания — это будет землетрясение. Бесплатная модель уровня Claude/GPT, которую можно запустить дома? Это меняет всё.

Grok 4.1 (xAI / Илон Маск)

Grok — это "неполиткорректный" ИИ от xAI. Он знаменит тем, что отвечает на вопросы, от которых другие модели отказываются. Grok 4.1 получил улучшения в рассуждениях, но всё ещё отстаёт от лидеров в бенчмарках. Зато интеграция с Twitter/X даёт ему доступ к самым свежим новостям — буквально в реальном времени.

Сравнительная Таблица: Кто Для Чего

-6

Задача Лучший выбор Почему Автономное написание кода GPT-5.3 Codex Terminal-Bench 77.3%, агентные возможности Анализ большого объёма документов Claude 4.6 Контекст 1M токенов, минимальный context rot Юридический и финансовый анализ Claude 4.6 BigLaw Bench 90.2%, GDPval-AA лидер Математические олимпиады GPT-5.3 Codex AIME 2025: 100% Работа в экосистеме Google Gemini 3 Pro Нативная интеграция Локальный запуск без облака DeepSeek V4 (ожидается) Open-weight, работает на RTX 4090 Доступ к реальному времени (Twitter/X) Grok 4.1 Интеграция с X

Что Выбрать? Честные Рекомендации

-7

Окей, хватит цифр. Давайте по-простому.

Выбирайте Claude 4.6, если:

  • Работаете с большими документами (код-ревью, юриспруденция, научные статьи)
  • Нужна глубина мысли, а не скорость
  • Важна безопасность и этичность ответов
  • Раздражают ложные отказы ("Я не могу помочь с этим")

Выбирайте GPT-5.3 Codex, если:

  • Нужен автономный агент, который сам напишет и задеплоит код
  • Работаете с математикой или алгоритмами
  • Важна скорость ответа
  • Уже в экосистеме OpenAI (Copilot, API)

Подождите DeepSeek V4, если:

  • Хотите запускать ИИ локально, без облака
  • Принципиально не хотите платить за подписки
  • Не боитесь экспериментировать с новыми технологиями

Отзывы Экспертов: Что Говорят Люди

Мы пообщались с разработчиками и аналитиками, которые уже несколько дней тестируют новые модели. Вот что они говорят (имена изменены).

"Claude 4.6 — это как разговаривать с очень умным коллегой, который действительно читает твой код. GPT-5.3 — это как иметь джуниора, который никогда не спит. Оба нужны, но для разного."

— Алексей, Senior Backend Developer, Москва

"Мы загрузили в Claude 4.6 всю нашу документацию — 500 страниц. Первый раз за 3 года ИИ смог правильно ответить на вопрос о deprecated API, который мы сами уже забыли."

— Мария, Tech Lead, финтех-стартап

"GPT-5.3 Codex за 20 минут написал то, на что у меня ушло бы 2 дня. С багами, конечно. Но баги он тоже сам исправил."

— Дмитрий, фрилансер-автоматизатор

Контекстное Окно: Почему 1 Миллион Токенов — Это Революция

-8

Давайте остановимся на этом подробнее, потому что это действительно важно.

Контекстное окно — это сколько информации модель может "держать в голове" одновременно. Представьте, что вы разговариваете с человеком, который забывает начало предложения к его концу. Примерно так работали ранние модели.

GPT-3 (2020) имел контекст 4K токенов — примерно 3000 слов. GPT-4 (2023) — 128K токенов. Claude 4.6 (2026) — 1 миллион токенов.

Что это значит на практике?

  • Целый репозиторий кода: Загрузите 100 файлов — модель увидит связи между ними.
  • Книга целиком: Обсуждайте сюжетные повороты из главы 1, находясь в главе 50.
  • История переписки: Модель помнит, о чём вы говорили неделю назад.

Но есть нюанс. Большое контекстное окно — это не бесплатно. Чем больше токенов, тем дороже каждый запрос. Claude 4.6 стоит заметно дороже Claude Sonnet именно из-за этого.

Часто Задаваемые Вопросы (FAQ)

Сколько стоит доступ к Claude 4.6 и GPT-5.3?

Claude 4.6 доступен через подписку Anthropic Pro ($20/мес) или API (от $15 за миллион входящих токенов). GPT-5.3 Codex доступен в ChatGPT Plus ($20/мес) или через Codex CLI. API-доступ для GPT-5.3 пока в ограниченном бета-тестировании.

Какая модель лучше для обычных разговоров?

Для повседневных задач (объяснить концепцию, написать письмо, помочь с идеями) обе модели примерно равны. Если важна скорость — GPT-5.3. Если важна глубина ответа — Claude 4.6.

Можно ли использовать эти модели для бизнеса?

Да, обе компании предлагают Enterprise-тарифы с гарантиями приватности, SLA и выделенной поддержкой. Anthropic особенно популярен среди юридических и финансовых компаний из-за фокуса на безопасности.

GPT-5.3 Codex действительно может заменить программиста?

Пока нет. Он может заменить часть работы. Рутинные задачи (бойлерплейт, CRUD, тесты) — да. Архитектура, сложные решения, понимание бизнес-логики — пока нет. Думайте о нём как о супер-продвинутом автокомплите, а не о замене человека.

Что такое "context rot" и почему это проблема?

"Context rot" — это когда модель начинает "забывать" информацию из начала разговора по мере его продолжения. Вы дали ей инструкции на старте, а через 50 сообщений она их игнорирует. Claude 4.6 значительно улучшил эту проблему благодаря новой архитектуре внимания.

Когда выйдет DeepSeek V4?

По утечкам — середина февраля 2026. Официальной даты пока нет. Следите за анонсами на deepseek.com.

Какая модель безопаснее?

По формальным метрикам — Claude 4.6. Anthropic инвестировали больше всех в safety-исследования. Но "безопаснее" — понятие относительное. GPT-5.3 Codex имеет более жёсткие ограничения на кибербезопасность.

Можно ли запустить эти модели локально?

Claude 4.6 и GPT-5.3 — нет, это закрытые модели. DeepSeek V4 обещает быть open-weight, что позволит запускать его на мощном домашнем железе (например, 2x RTX 4090 с 48GB VRAM суммарно).

Что делать, если модель отказывается выполнять запрос?

Переформулируйте. Уточните контекст. Объясните, почему это нужно. Если отказ ложный (over-refusal) — попробуйте Claude 4.6, у него самый низкий уровень ложных отказов среди топ-моделей.

Какое будущее у ИИ-моделей?

Тренд очевиден: агентность. Модели будут всё больше делать сами — от написания кода до управления бизнес-процессами. К 2027 году ИИ-агенты станут стандартным инструментом в каждой компании, как сейчас CRM или бухгалтерский софт.

Глоссарий Терминов

Контекстное окно (Context Window) Максимальное количество токенов, которое модель может обработать за один запрос. Чем больше — тем больше информации модель видит одновременно.

Токен (Token) Единица текста для модели. Примерно 1 токен = 0.75 слова на английском, или ~0.5 слова на русском.

Agentic AI (Агентный ИИ) ИИ-система, способная автономно выполнять задачи: планировать, использовать инструменты, исправлять ошибки без постоянного контроля человека.

Context Rot Деградация качества ответов модели по мере увеличения длины разговора. Модель начинает "забывать" ранний контекст.

SWE-bench Бенчмарк для оценки способности ИИ решать реальные задачи из GitHub-репозиториев. Считается одним из самых практически ценных тестов.

Terminal-Bench Тест на способность ИИ работать в терминале: выполнять команды, анализировать вывод, отлаживать ошибки.

Humanity's Last Exam Комплексный бенчмарк из сложных вопросов по разным дисциплинам. Название отсылает к идее "последнего экзамена, который человечество может сдать".

Open-weight модель Модель, веса которой доступны публично. Можно скачать и запустить локально, в отличие от закрытых моделей (GPT, Claude).

Over-refusal Ложный отказ модели выполнять безобидный запрос из-за чрезмерно строгих фильтров безопасности.

Interpretability (Интерпретируемость) Область исследований, направленная на понимание того, как нейросеть принимает решения. Позволяет "заглянуть внутрь" модели.

Заключение: Будущее Уже Здесь

5 февраля 2026 года — это не просто дата релиза двух продуктов. Это маркер. Точка перегиба. Момент, когда ИИ перестал быть "интересной технологией" и стал рабочим инструментом, который реально меняет то, как мы работаем.

Claude 4.6 и GPT-5.3 Codex — это не конкуренты в традиционном смысле. Это два разных инструмента для разных задач. Один думает глубоко. Другой действует быстро. Выбирайте то, что подходит именно вам.

А если не можете выбрать — используйте оба. Серьёзно. В 2026 году иметь доступ к нескольким ИИ-моделям — это не расточительство. Это необходимость.

Мы живём в эпоху, когда каждый месяц выходит технология, которая ещё вчера казалась научной фантастикой. ИИ, который пишет код. ИИ, который помнит миллион слов. ИИ, который создаёт сам себя.

Вопрос не в том, использовать ли эти инструменты. Вопрос — насколько быстро вы начнёте.

🚀 Активировать суперсилуГотовы попробовать?
Получите доступ ко всем pro-ботам и библиотеке промптов прямо сейчас.