75 подписчиков

Аналитика и критика Claude 4: почему новая ИИ-модель от Anthropic разочаровала пользователей

31 мая 202531 мая 2025

4 мин

Недавно компания Anthropic выпустила новую версию своего искусственного интеллекта – Claude 4, а также его разновидности Sonnet и Opus. Несмотря на громкие обещания разработчиков, модель столкнулась с серьёзной критикой пользователей и специалистов. В этой статье мы анализируем основные недостатки Claude 4, сравниваем её с предыдущими версиями, а также с конкурентами, и разбираемся, почему многие считают этот релиз шагом назад. Anthropic традиционно позиционирует свои ИИ как одних из самых продвинутых на рынке, а выпуск новой линейки должен был укрепить эту репутацию. Однако после появления бенчмарков (тестовых замеров производительности) стало ясно — Claude 4 Sonnet по качеству работы либо сопоставим с предыдущей моделью 3.7, либо уступает ей. Особенно разочаровывают результаты на популярном бенчмарке Ader, где Claude 4 Sonnet набрал всего 61,3%, в то время как его предшественник — 64,9%. Для технологий искусственного интеллекта такой отрыв критичен: пользователи ожидают значительного

Оглавление

Ожидания и реальность: почему Claude 4 не оправдала надежд
Манипуляции с бенчмарками и «слепые» зоны тестирования
Проблемы с API: новая «скрытость» мышления и рост расходов

Ожидания и реальность: почему Claude 4 не оправдала надежд

Anthropic традиционно позиционирует свои ИИ как одних из самых продвинутых на рынке, а выпуск новой линейки должен был укрепить эту репутацию. Однако после появления бенчмарков (тестовых замеров производительности) стало ясно — Claude 4 Sonnet по качеству работы либо сопоставим с предыдущей моделью 3.7, либо уступает ей.

Особенно разочаровывают результаты на популярном бенчмарке Ader, где Claude 4 Sonnet набрал всего 61,3%, в то время как его предшественник — 64,9%. Для технологий искусственного интеллекта такой отрыв критичен: пользователи ожидают значительного прыжка вперёд с каждым новым релизом.

Манипуляции с бенчмарками и «слепые» зоны тестирования

В своих официальных материалах Anthropic сравнивает результаты моделей с разными настройками, в частности — с использованием режима цепочки рассуждений (chain of thought) и вызова сторонних инструментов (tool calling). Однако большинство отраслевых тестов оценивают именно базовый интеллект модели, без использования внешних инструментов и дополнительного кода. Поэтому реальное положение вещей оказывается хуже красивых графиков из презентаций.

Проблемы с API: новая «скрытость» мышления и рост расходов

Одно из нововведений — скрытие полной цепочки рассуждений модели при работе с API. Теперь пользователи получают лишь итоговые, сжатые ответы, а внутренняя логика и ход рассуждений остаются за кадром. Считается, что такой подход помогает избежать абьюза модели и повышает безопасность, однако на практике это сильно затрудняет анализ работы искусственного интеллекта и, более того, негативно сказывается на стоимости — пользователи оплачивают полный объём сгенерированных токенов, даже не получая весь текст на выходе.

Также отмечаются задержки в потоковой (streaming) выдаче ответов, а расчёт объёма токенов, за которые взимается плата, не соответствует длине реального ответа — это вызывает у разработчиков и конечных пользователей дополнительные вопросы к честности биллинга.

Ограниченная длина контекста: шаг назад в эпоху больших окон

В то время как конкуренты предлагают контекстные окна до одного миллиона токенов (например, Gemini 2.5 Pro), у Claude 4 этот показатель ограничен лишь 200 000 токенов. Более того, качество «вязкости» (adherence) к контексту резко падает уже после 100 000 токенов. Для пользователей, обрабатывающих большие объёмы данных, это становится серьёзным ограничением.

На этом фоне даже бесплатные решения, например, Google AI Studio с неограниченными сообщениями в Gemini 2.5 Pro, выглядят куда привлекательнее. За схожую или меньшую стоимость пользователь получает и большую глубину контекста, и высокую стабильность платформы.

Мультимодальные и визуальные возможности: разочарование вместо прогресса

Одна из сильных сторон современных моделей искусственного интеллекта — работа с разными типами данных (текст, изображение, звук). Однако в Claude 4 возможности визуального анализа оказались еще слабее, чем у версии 3.5. Даже после многочисленных попыток воспользоваться этими функциями, автор отмечает: визуальное понимание резко просело, и смысла платить больше за худшую производительность попросту нет.

В то же время Opus — самая дорогая модель из новой линейки — практически полностью повторяет функционал Sonnet, хотя стоит в 10 раз дороже. Причём в некоторых задачах Opus даже уступает или лишь незначительно превосходит Sonnet. В результате большинству пользователей просто нет смысла платить больше.

Недостаток надежности и отсутствие бюджетных решений

Дополнительные минусы — нестабильная работа платформы Claude, отсутствие более дешёвых моделей, а также явно устаревшие технические лимиты. Модель не всегда доступна, ограничена по длине сообщений, а стоимость использования остаётся высокой. В то время как конкуренты предлагают широкий выбор платных и бесплатных продуктов, Anthropic упорствует в монолитной ценовой политике.

Кто выигрывает в этой гонке?

В итоге, по мнению автора, сегодня более выгодным и современным выбором выглядят продукты от Google (Gemini 2.5 Pro) и Deepseek (R1), которые быстрее, дешевле, надёжнее и технологичнее. Они обладают бо́льшими окнами контекста, лучшей поддержкой мультимодальности и не имеют ключевых недостатков, ставших «визитной карточкой» Claude 4.

Итоги: нужен новый курс для развития

Маркетинговые заявления об угрозе человечеству не спасут продукт, если теряется его магистральное преимущество — качество. Конечно, развитие искусственного интеллекта требует ответственности, но пользователи ждут от нового поколения решений не только безопасности, но и эффективности, универсальности, гибкости.

В настоящее время Claude 4 не может конкурировать с лидерами рынка ни по цене, ни по качеству, ни по функциональности. Модель проигрывает даже собственным более ранним версиям, а её использование становится для многих бессмысленным.

Если вы уже успели протестировать Claude 4 или другие новые ИИ-модели — поделитесь своим мнением в комментариях!