Каждый раз история повторяется. Выходит новая модель. Она рвёт бенчмарки. Twitter и Reddit кипят. Разработчики тестируют её пару недель. А потом… тихо возвращаются к Claude.
И это не про лояльность бренду. И не про маркетинг. Это про рабочий процесс.
Статья разработчика Manish Bhusal под названием «Why Developers Keep Choosing Claude Over Every Other AI - Почему разработчики продолжают выбирать Claude вместо любых других ИИ-инструментов» поднимает очень важный вопрос: почему модель, которая не всегда №1 в таблицах, выигрывает в реальной работе?
Ответ — в дисциплине процесса.
Бенчмарки не врут. Но они измеряют не то
Большинство технических тестов вроде HumanEval или SWE-bench проверяют изолированные задачи.
📌 Написать функцию
📌 Пройти юнит-тесты
📌 Сгенерировать патч к issue
Это важно. Но реальная разработка выглядит иначе.
В реальном проекте нужно:
⚙️ Прочитать несколько файлов и понять контекст
⚙️ Внести точечные правки, не переписав половину репозитория
⚙️ Пройти через 20+ шагов без потери нити
⚙️ Корректно обработать ошибку терминала
⚙️ Не «улучшать» то, о чём тебя не просили
И вот здесь начинается разрыв между «умной моделью» и «рабочим инструментом».
Разница не в интеллекте. Разница в дисциплине
Bhusal формулирует это очень точно: Anthropic, судя по всему, обучала Claude не только генерировать код, но и соблюдать процесс разработки.
Claude лучше:
🧭 Читает нужные файлы перед изменениями
✂️ Делает точечные правки вместо переписывания всего файла
🛑 Останавливается и спрашивает, когда нужно
🧠 Держит контекст длинной цепочки действий
📂 Не портит соседние модули
Технически все современные агенты могут читать файлы, редактировать код и выполнять команды. Тот же Claude Code, Gemini CLI или Codex обладают схожими возможностями.
Разница — в стабильности выполнения.
Не в том, что один «может», а в том, как часто он делает это без сбоев.
40% — код. 60% — всё вокруг
Это, пожалуй, самая важная мысль статьи.
Генерация корректного кода — примерно 40% задачи.
Остальное — это:
🗂 работа с кодовой базой
🔄 поддержание последовательности действий
💬 коммуникация о своих шагах
⚠️ корректная реакция на ошибки
🎯 фокус на изначальной задаче
Если модель на 15-м шаге внезапно «улучшает архитектуру», о которой её никто не просил — это ломает доверие.
В многозадачном workflow это критично. Особенно в продакшн-разработке.
Почему у Google здесь структурная проблема
Автор честно признаёт: Gemini умеет писать отличный код. Иногда — лучше Claude в изолированных задачах.
Но есть системная разница.
Google — компания общего назначения. Их модели оптимизируются под:
🌐 поиск
🗣 разговорный ИИ
🌍 перевод
🖼 мультимодальность
📚 суммаризацию
Кодинг — лишь один из десятков use-case’ов.
Anthropic же, по собственным исследованиям, получает почти половину агентной нагрузки именно из задач разработки. Когда половина бизнеса — это код, ты начинаешь тренировать модель именно под длинные агентные сценарии.
Это уже не просто LLM. Это LLM, натренированная на поведенческую устойчивость.
Почему это важнее, чем кажется
Мы сейчас в фазе «гонки бенчмарков». Но реальный рынок выбирает не самый высокий балл в таблице, а наименьшее трение в повседневной работе.
В долгих агентных задачах провалы выглядят так:
🔁 модель зацикливается
🧩 теряет контекст
🧨 ломает соседний файл
🧭 отклоняется от задачи
👀 требует постоянного контроля
Если вам приходится постоянно «рулить» моделью — это уже не ассистент, а стажёр.
Claude, по мнению автора, ближе к самостоятельному сотруднику.
Моё мнение: это урок для всей индустрии
Мы долго мерили «интеллект». Но забыли измерять поведенческую устойчивость.
Большие модели могут быть умнее.
Но дисциплина — это отдельный навык.
И он не возникает автоматически при масштабировании.
Чтобы модель:
🔧 корректно редактировала файл
🗃 не ломала соседний код
📌 держала цель через 20 шагов
🛠 аккуратно пользовалась инструментами
— нужно целенаправленное обучение на workflow, а не только на датасетах кода.
Anthropic, похоже, это поняли раньше других.
Что будет дальше?
📈 Лидеры бенчмарков будут меняться
🔄 Разработчики будут пробовать новинки
↩️ Многие будут возвращаться к инструменту, которому доверяют
Разрыв будет сокращаться. Google и OpenAI точно не сидят сложа руки.
Но главный инсайт уже прозвучал:
Умная модель ≠ надёжный рабочий инструмент.
В разработке важна не только способность написать функцию.
Важна способность пройти весь путь без потери нити.
И, как правильно пишет Bhusal — если бенчмарки говорят одно, а ежедневные разработчики другое, стоит слушать разработчиков.
Источники
Оригинальная статья:
https://www.bhusalmanish.com.np/blog/posts/why-claude-wins-coding.html
Русский пересказ:
https://telegra.ph/Zagolovok-Pochemu-razrabotchiki-vozvrashchayutsya-k-Claude-skrytaya-magiya-processa-a-ne-tolko-koda-02-26
Упомянутые бенчмарки:
https://github.com/openai/human-eval
https://www.swebench.com
Дополнительно об агентной автономности Anthropic:
https://www.anthropic.com/research