211 подписчиков

🤖 Claude Code против Codex: когда Reddit решает, кто лучший программист среди ИИ

18 октября 202518 окт 2025

3 мин

Можно сколько угодно смотреть на сухие метрики вроде SWEbench или PR Arena, но они не отвечают на главный вопрос: что думают реальные разработчики. Автор AI Engineering Report решил подойти к делу с инженерной точностью и построил собственный дашборд анализа сентимента Reddit-комментариев, чтобы выяснить, кто побеждает в «битве IDE будущего» — Claude Code от Anthropic или Codex от OpenAI. Результат получился неожиданно острым: Codex лидирует по позитиву, но Claude Code обсуждают в 4 раза чаще. Исследователь Билл Прин собрал более 500 комментариев из Reddit-сообществ /r/ClaudeCode, /r/ChatGPTCoding и /r/Codex. Для анализа использовалась модель Claude Haiku — лёгкая, но точная версия модели от Anthropic. 🔍 Pipeline выглядел так:

1️⃣ Сбор данных через Reddit API по ключевым фразам «Claude Code» и «Codex».

2️⃣ Очистка и нормализация текста (удаление цитат, форматирования Markdown, спойлеров).

3️⃣ Анализ тональности каждого комментария (положительный / нейтральный / отрицательный).

4️⃣ Взв

1️⃣ Сбор данных через Reddit API по ключевым фразам «Claude Code» и «Codex».

2️⃣ Очистка и нормализация текста (удаление цитат, форматирования Markdown, спойлеров).

3️⃣ Анализ тональности каждого комментария (положительный / нейтральный / отрицательный).

4️⃣ Взв

Оглавление

🧠 Как это было сделано
📊 Что показали данные
💬 Примеры из реальных комментариев

Можно сколько угодно смотреть на сухие метрики вроде SWEbench или PR Arena, но они не отвечают на главный вопрос: что думают реальные разработчики. Автор AI Engineering Report решил подойти к делу с инженерной точностью и построил собственный дашборд анализа сентимента Reddit-комментариев, чтобы выяснить, кто побеждает в «битве IDE будущего» — Claude Code от Anthropic или Codex от OpenAI.

Результат получился неожиданно острым: Codex лидирует по позитиву, но Claude Code обсуждают в 4 раза чаще.

🧠 Как это было сделано

Исследователь Билл Прин собрал более 500 комментариев из Reddit-сообществ /r/ClaudeCode, /r/ChatGPTCoding и /r/Codex. Для анализа использовалась модель Claude Haiku — лёгкая, но точная версия модели от Anthropic.

🔍 Pipeline выглядел так:
1️⃣ Сбор данных через Reddit API по ключевым фразам «Claude Code» и «Codex».
2️⃣ Очистка и нормализация текста (удаление цитат, форматирования Markdown, спойлеров).
3️⃣ Анализ тональности каждого комментария (положительный / нейтральный / отрицательный).
4️⃣ Взвешивание по апвотам — комментарий с +10 голосов считался «весомее» одиночных.
5️⃣ Сохранение результата в JSON и визуализация на дашборде с Vercel и React Chart.js.

💸 Стоимость? Всего $0,77 за 500 комментариев.
Анализ занял около 26 минут и обработал 273 тыс. токенов.

Можно сказать, что это один из самых дешёвых и честных UX-опросов о будущем ИИ-программирования.

📊 Что показали данные

🟢 Codex — фаворит сообщества:

65,3 % сравнительных комментариев предпочитают Codex.
79,9 % апвотов — тоже за Codex.
Его хвалят за стабильность, «глубину» рассуждений и качество кода при рефакторинге.

🔵 Claude Code — звезда обсуждений, но с оговорками:

Упоминается в 4 раза чаще.
Лидирует по категориям «скорость ответа» ⚡ и «удобство терминала / экосистема» 🧩.
Однако чаще критикуется — как «слишком уверенный в себе ассистент», выдающий нерабочие решения.

Любопытно, что Reddit остаётся “отрицательной” площадкой: даже у победителя больше критики, чем похвалы.

💬 Примеры из реальных комментариев

🟣 Пользователь serialoverflow:

«Тестировал Sonnet 4.5, GPT-5 Codex и GLM 4.6 на Next.js.
Sonnet лучший, Codex близко, но у Claude Code лучшая экосистема и скорость. GLM пока сырой, но дешёвый».

🔴 Пользователь Hauven:

«Claude Code часто уверяет, что код готов, хотя он не компилируется.
GPT-5 Codex же смог переписать мой 3K-LOC файл на C# до 1K без ошибок — с ним можно работать поэтапно».

🧩 Интересные детали

👾 GLM — китайский LLM-кодер — внезапно стал «тёмной лошадкой» обсуждений.
Один из топовых тредов назывался «Почему я бросил Claude Code ради GLM»:

«Он хуже по функциям, но выдаёт приличный код за копейки. Самый выгодный LLM на рынке».

🧮 Claude Haiku показала себя удивительно надёжной в роли «судьи».
Несмотря на малую мощность, она корректно улавливала сарказм и контекст (автор даже оставил родительскую цепочку комментариев при анализе).

🧰 Dashboard ( демо здесь )
позволяет фильтровать отзывы по категориям: «скорость», «цена», «надёжность», «workflow».
Исходный код доступен на GitHub.

⚙️ Технический взгляд

Если присмотреться к реализации, проект — это пример идеального минимального ML-пайплайна для анализа пользовательского фидбэка:

💬 Frontend: Vercel + React + Chart.js (визуализация по категориям и апвотам).
📦 Backend: простая Node-функция с обработкой Reddit JSON.
🧠 ML-часть: вызовы Anthropic API для классификации текста.
🧾 Хранилище: Firestore или GitHub Pages (для лёгкого CDN-деплоя).

Можно легко повторить анализ, заменив модель — например, использовать GPT-4 Turbo или Gemini 1.5 Flash для сравнения bias и consistency.

🧩 Моё мнение

Этот эксперимент — отличный пример того, как инженерное сообщество само проводит исследования вместо маркетинга компаний.
Benchmarks вроде SWEbench показывают, что умеет модель в лаборатории,
а Reddit-сентимент показывает, нравится ли она тем, кто ею живёт каждый день.

По сути, мы видим, что Codex остаётся инструментом для архитекторов,
а Claude Code — инструментом для хакеров и быстрых итераций.
Первый даёт надёжный код, второй — скорость и ощущение «живого помощника в консоли».

Лично я считаю, что победа Codex закономерна: у него — стабильная инфраструктура и опыт OpenAI в IDE-интеграциях.
Но то, что Claude обсуждают чаще, говорит не о слабости, а о вовлечённости: самые спорные продукты — это те, что реально изменяют привычку работы.

📎 Источники:
🔗 AI Engineering Report — “Claude Code vs Codex: I Built a Sentiment Dashboard from Reddit Comments”
💻 Демо-дэшборд
📂 Исходники проекта на GitHub