Недавно компания Anthropic выпустила новую версию своего искусственного интеллекта – Claude 4, а также его разновидности Sonnet и Opus. Несмотря на громкие обещания разработчиков, модель столкнулась с серьёзной критикой пользователей и специалистов. В этой статье мы анализируем основные недостатки Claude 4, сравниваем её с предыдущими версиями, а также с конкурентами, и разбираемся, почему многие считают этот релиз шагом назад.
Ожидания и реальность: почему Claude 4 не оправдала надежд
Anthropic традиционно позиционирует свои ИИ как одних из самых продвинутых на рынке, а выпуск новой линейки должен был укрепить эту репутацию. Однако после появления бенчмарков (тестовых замеров производительности) стало ясно — Claude 4 Sonnet по качеству работы либо сопоставим с предыдущей моделью 3.7, либо уступает ей.
Особенно разочаровывают результаты на популярном бенчмарке Ader, где Claude 4 Sonnet набрал всего 61,3%, в то время как его предшественник — 64,9%. Для технологий искусственного интеллекта такой отрыв критичен: пользователи ожидают значительного прыжка вперёд с каждым новым релизом.
Манипуляции с бенчмарками и «слепые» зоны тестирования
В своих официальных материалах Anthropic сравнивает результаты моделей с разными настройками, в частности — с использованием режима цепочки рассуждений (chain of thought) и вызова сторонних инструментов (tool calling). Однако большинство отраслевых тестов оценивают именно базовый интеллект модели, без использования внешних инструментов и дополнительного кода. Поэтому реальное положение вещей оказывается хуже красивых графиков из презентаций.
Проблемы с API: новая «скрытость» мышления и рост расходов
Одно из нововведений — скрытие полной цепочки рассуждений модели при работе с API. Теперь пользователи получают лишь итоговые, сжатые ответы, а внутренняя логика и ход рассуждений остаются за кадром. Считается, что такой подход помогает избежать абьюза модели и повышает безопасность, однако на практике это сильно затрудняет анализ работы искусственного интеллекта и, более того, негативно сказывается на стоимости — пользователи оплачивают полный объём сгенерированных токенов, даже не получая весь текст на выходе.
Также отмечаются задержки в потоковой (streaming) выдаче ответов, а расчёт объёма токенов, за которые взимается плата, не соответствует длине реального ответа — это вызывает у разработчиков и конечных пользователей дополнительные вопросы к честности биллинга.
Ограниченная длина контекста: шаг назад в эпоху больших окон
В то время как конкуренты предлагают контекстные окна до одного миллиона токенов (например, Gemini 2.5 Pro), у Claude 4 этот показатель ограничен лишь 200 000 токенов. Более того, качество «вязкости» (adherence) к контексту резко падает уже после 100 000 токенов. Для пользователей, обрабатывающих большие объёмы данных, это становится серьёзным ограничением.
На этом фоне даже бесплатные решения, например, Google AI Studio с неограниченными сообщениями в Gemini 2.5 Pro, выглядят куда привлекательнее. За схожую или меньшую стоимость пользователь получает и большую глубину контекста, и высокую стабильность платформы.
Мультимодальные и визуальные возможности: разочарование вместо прогресса
Одна из сильных сторон современных моделей искусственного интеллекта — работа с разными типами данных (текст, изображение, звук). Однако в Claude 4 возможности визуального анализа оказались еще слабее, чем у версии 3.5. Даже после многочисленных попыток воспользоваться этими функциями, автор отмечает: визуальное понимание резко просело, и смысла платить больше за худшую производительность попросту нет.
В то же время Opus — самая дорогая модель из новой линейки — практически полностью повторяет функционал Sonnet, хотя стоит в 10 раз дороже. Причём в некоторых задачах Opus даже уступает или лишь незначительно превосходит Sonnet. В результате большинству пользователей просто нет смысла платить больше.
Недостаток надежности и отсутствие бюджетных решений
Дополнительные минусы — нестабильная работа платформы Claude, отсутствие более дешёвых моделей, а также явно устаревшие технические лимиты. Модель не всегда доступна, ограничена по длине сообщений, а стоимость использования остаётся высокой. В то время как конкуренты предлагают широкий выбор платных и бесплатных продуктов, Anthropic упорствует в монолитной ценовой политике.
Кто выигрывает в этой гонке?
В итоге, по мнению автора, сегодня более выгодным и современным выбором выглядят продукты от Google (Gemini 2.5 Pro) и Deepseek (R1), которые быстрее, дешевле, надёжнее и технологичнее. Они обладают бо́льшими окнами контекста, лучшей поддержкой мультимодальности и не имеют ключевых недостатков, ставших «визитной карточкой» Claude 4.
Итоги: нужен новый курс для развития
Маркетинговые заявления об угрозе человечеству не спасут продукт, если теряется его магистральное преимущество — качество. Конечно, развитие искусственного интеллекта требует ответственности, но пользователи ждут от нового поколения решений не только безопасности, но и эффективности, универсальности, гибкости.
В настоящее время Claude 4 не может конкурировать с лидерами рынка ни по цене, ни по качеству, ни по функциональности. Модель проигрывает даже собственным более ранним версиям, а её использование становится для многих бессмысленным.
Если вы уже успели протестировать Claude 4 или другие новые ИИ-модели — поделитесь своим мнением в комментариях!