212 подписчиков

Почему разработчики возвращаются к Claude — дело не в «умности», а в дисциплине

28 февраля28 фев

4 мин

Каждый раз история повторяется. Выходит новая модель. Она рвёт бенчмарки. Twitter и Reddit кипят. Разработчики тестируют её пару недель. А потом… тихо возвращаются к Claude. И это не про лояльность бренду. И не про маркетинг. Это про рабочий процесс. Статья разработчика Manish Bhusal под названием «Why Developers Keep Choosing Claude Over Every Other AI - Почему разработчики продолжают выбирать Claude вместо любых других ИИ-инструментов» поднимает очень важный вопрос: почему модель, которая не всегда №1 в таблицах, выигрывает в реальной работе? Ответ — в дисциплине процесса. Большинство технических тестов вроде HumanEval или SWE-bench проверяют изолированные задачи. 📌 Написать функцию

📌 Пройти юнит-тесты

📌 Сгенерировать патч к issue Это важно. Но реальная разработка выглядит иначе. В реальном проекте нужно: ⚙️ Прочитать несколько файлов и понять контекст

⚙️ Внести точечные правки, не переписав половину репозитория

⚙️ Пройти через 20+ шагов без потери нити

⚙️ Корректно обработать оши

📌 Пройти юнит-тесты

⚙️ Внести точечные правки, не переписав половину репозитория

⚙️ Пройти через 20+ шагов без потери нити

⚙️ Корректно обработать оши

Оглавление

Бенчмарки не врут. Но они измеряют не то
Разница не в интеллекте. Разница в дисциплине
40% — код. 60% — всё вокруг

Каждый раз история повторяется. Выходит новая модель. Она рвёт бенчмарки. Twitter и Reddit кипят. Разработчики тестируют её пару недель. А потом… тихо возвращаются к Claude.

И это не про лояльность бренду. И не про маркетинг. Это про рабочий процесс.

Статья разработчика Manish Bhusal под названием «Why Developers Keep Choosing Claude Over Every Other AI - Почему разработчики продолжают выбирать Claude вместо любых других ИИ-инструментов» поднимает очень важный вопрос: почему модель, которая не всегда №1 в таблицах, выигрывает в реальной работе?

Ответ — в дисциплине процесса.

Бенчмарки не врут. Но они измеряют не то

Большинство технических тестов вроде HumanEval или SWE-bench проверяют изолированные задачи.

📌 Написать функцию
📌 Пройти юнит-тесты
📌 Сгенерировать патч к issue

Это важно. Но реальная разработка выглядит иначе.

В реальном проекте нужно:

⚙️ Прочитать несколько файлов и понять контекст
⚙️ Внести точечные правки, не переписав половину репозитория
⚙️ Пройти через 20+ шагов без потери нити
⚙️ Корректно обработать ошибку терминала
⚙️ Не «улучшать» то, о чём тебя не просили

И вот здесь начинается разрыв между «умной моделью» и «рабочим инструментом».

Разница не в интеллекте. Разница в дисциплине

Bhusal формулирует это очень точно: Anthropic, судя по всему, обучала Claude не только генерировать код, но и соблюдать процесс разработки.

Claude лучше:

🧭 Читает нужные файлы перед изменениями
✂️ Делает точечные правки вместо переписывания всего файла
🛑 Останавливается и спрашивает, когда нужно
🧠 Держит контекст длинной цепочки действий
📂 Не портит соседние модули

Технически все современные агенты могут читать файлы, редактировать код и выполнять команды. Тот же Claude Code, Gemini CLI или Codex обладают схожими возможностями.

Разница — в стабильности выполнения.

Не в том, что один «может», а в том, как часто он делает это без сбоев.

40% — код. 60% — всё вокруг

Это, пожалуй, самая важная мысль статьи.

Генерация корректного кода — примерно 40% задачи.

Остальное — это:

🗂 работа с кодовой базой
🔄 поддержание последовательности действий
💬 коммуникация о своих шагах
⚠️ корректная реакция на ошибки
🎯 фокус на изначальной задаче

Если модель на 15-м шаге внезапно «улучшает архитектуру», о которой её никто не просил — это ломает доверие.

В многозадачном workflow это критично. Особенно в продакшн-разработке.

Почему у Google здесь структурная проблема

Автор честно признаёт: Gemini умеет писать отличный код. Иногда — лучше Claude в изолированных задачах.

Но есть системная разница.

Google — компания общего назначения. Их модели оптимизируются под:

🌐 поиск
🗣 разговорный ИИ
🌍 перевод
🖼 мультимодальность
📚 суммаризацию

Кодинг — лишь один из десятков use-case’ов.

Anthropic же, по собственным исследованиям, получает почти половину агентной нагрузки именно из задач разработки. Когда половина бизнеса — это код, ты начинаешь тренировать модель именно под длинные агентные сценарии.

Это уже не просто LLM. Это LLM, натренированная на поведенческую устойчивость.

Почему это важнее, чем кажется

Мы сейчас в фазе «гонки бенчмарков». Но реальный рынок выбирает не самый высокий балл в таблице, а наименьшее трение в повседневной работе.

В долгих агентных задачах провалы выглядят так:

🔁 модель зацикливается
🧩 теряет контекст
🧨 ломает соседний файл
🧭 отклоняется от задачи
👀 требует постоянного контроля

Если вам приходится постоянно «рулить» моделью — это уже не ассистент, а стажёр.

Claude, по мнению автора, ближе к самостоятельному сотруднику.

Моё мнение: это урок для всей индустрии

Мы долго мерили «интеллект». Но забыли измерять поведенческую устойчивость.

Большие модели могут быть умнее.
Но дисциплина — это отдельный навык.

И он не возникает автоматически при масштабировании.

Чтобы модель:

🔧 корректно редактировала файл
🗃 не ломала соседний код
📌 держала цель через 20 шагов
🛠 аккуратно пользовалась инструментами

— нужно целенаправленное обучение на workflow, а не только на датасетах кода.

Anthropic, похоже, это поняли раньше других.

Что будет дальше?

📈 Лидеры бенчмарков будут меняться
🔄 Разработчики будут пробовать новинки
↩️ Многие будут возвращаться к инструменту, которому доверяют

Разрыв будет сокращаться. Google и OpenAI точно не сидят сложа руки.

Но главный инсайт уже прозвучал:

Умная модель ≠ надёжный рабочий инструмент.

В разработке важна не только способность написать функцию.
Важна способность пройти весь путь без потери нити.

И, как правильно пишет Bhusal — если бенчмарки говорят одно, а ежедневные разработчики другое, стоит слушать разработчиков.

Источники

Оригинальная статья:
https://www.bhusalmanish.com.np/blog/posts/why-claude-wins-coding.html

Русский пересказ:
https://telegra.ph/Zagolovok-Pochemu-razrabotchiki-vozvrashchayutsya-k-Claude-skrytaya-magiya-processa-a-ne-tolko-koda-02-26

Упомянутые бенчмарки:
https://github.com/openai/human-eval
https://www.swebench.com

Дополнительно об агентной автономности Anthropic:
https://www.anthropic.com/research