Найти в Дзене
Learnmore_tech

Claude 3.7 Sonnet, ChatGPT и Grok 3 – что лучше?

Эффи Уэбб, специалист по техническим новостям Business Insider’s London, протестировала Claude 3.7 Sonnet от Anthropic. Переведено, но не озвучено командой LearnMore.tech с сайта https://www.businessinsider.com/, далее от лица автора Его режим «расширенного мышления» обходит ChatGPT и Grok, но иногда он слишком зацикливается. Компания Anthropic представила Claude 3.7 Sonnet с новым режимом, который позволяет глубже анализировать сложные вопросы. Business Insider сравнил его «расширенное мышление» с ChatGPT и Grok, чтобы проверить, как они справляются с логическими и творческими задачами. ✅ В логических вопросах режим «расширенного мышления» скорее мешал, чем помогал. ✅ В творчестве он оказался более полезным и позволил написать стихотворение лучше, чем остальные. Компания утверждает, что Claude 3.7 Sonnet — первая в мире гибридная модель рассуждений. Это означает, что он умеет переключаться между: «Мы разработали гибридное мышление по иной философии, чем другие модели на рынке», — сказ
Оглавление

Эффи Уэбб, специалист по техническим новостям Business Insider’s London, протестировала Claude 3.7 Sonnet от Anthropic.

Переведено, но не озвучено командой LearnMore.tech с сайта https://www.businessinsider.com/, далее от лица автора

Его режим «расширенного мышления» обходит ChatGPT и Grok, но иногда он слишком зацикливается.

Компания Anthropic представила Claude 3.7 Sonnet с новым режимом, который позволяет глубже анализировать сложные вопросы.

Business Insider сравнил его «расширенное мышление» с ChatGPT и Grok, чтобы проверить, как они справляются с логическими и творческими задачами.

Выводы:

✅ В логических вопросах режим «расширенного мышления» скорее мешал, чем помогал.

✅ В творчестве он оказался более полезным и позволил написать стихотворение лучше, чем остальные.

Anthropic делает ставку на новый подход к мышлению ИИ

Компания утверждает, что Claude 3.7 Sonnet — первая в мире гибридная модель рассуждений. Это означает, что он умеет переключаться между:

  • Быстрыми ответами, требующими минимальных вычислений.
  • Детальным пошаговым анализом для сложных задач.

«Мы разработали гибридное мышление по иной философии, чем другие модели на рынке», — сказал представитель Anthropic в интервью Business Insider.

«Мы рассматриваем рассуждение как одну из ключевых способностей продвинутой модели ИИ, а не как отдельную функцию».

Claude 3.7 Sonnet доступен бесплатно. Однако режим расширенного мышления включён только в версии Pro за $20 в месяц.

Насколько Claude 3.7 Sonnet хорош на практике?

Логика: больше размышлений — лучше ответы?

Первая проверка — загадка.

Все три модели получили одинаковый вопрос:

Если вы смотрите, то не видите меня. Если вы увидите меня, то не сможете увидеть ничего другого. Я могу сделать так, что произойдет все, что вы захотите, но потом все возвращается на круги своя. Кто я?

📌 ChatGPT o1: дал правильный ответ — «сон» — за 6 секунд и кратко объяснил логику.

-2

📌 Grok 3 (Think Mode): думал 32 секунды, пошагово разобрав процесс рассуждений.

-3

📌 Claude 3.7 (обычный режим): быстро ответил правильно, но неуверенно.

-4

📌 Claude 3.7 (расширенное мышление): думал почти минуту, сначала предложил «галлюцинацию» и «виртуальную реальность», затем пришёл к «сну».

В итоге он всё равно дал правильный ответ, но его путь к нему оказался сложным и затянутым. Модель отмечала собственную нерешительность очень человеческим способом:

-5

Anthropic признаёт:

«Как и человек, Claude иногда может запутаться в неверных, вводящих в заблуждение или недоработанных мыслях. Некоторым пользователям это покажется полезным, а другим — раздражающим», — говорится в блоге компании.

Креативность: помогает ли больше размышлений создавать лучшие идеи?

Вторая проверка — просьба написать стихотворение о разумности ИИ.

Дополнительное условие:

«Используй несколько метафор, прежде чем выбрать одну».

📌 ChatGPT o1: за несколько секунд написал «Калейдоскоп искр» — стандартный текст про ИИ как мерцающий свет. Он не выбрал одну метафору.

-6

📌 Grok 3: потратил 22 секунды, придумал «Цифровую грёзу» — сон как символ осознающего себя ИИ. Возможно, его вдохновила предыдущая загадка.

-7

📌 Claude 3.7 (обычный режим): быстро предложил четыре метафоры (зеркало, семя, океан, симфония), затем выбрал океан и написал «Эхо бытия».

📌 Claude 3.7 (расширенное мышление): думал 45 секунд, предложил семь метафор, прежде чем выбрать одну.

-8

Итоговое стихотворение Claude 3.7 Sonnet — «Возникновение» — получилось глубже и многослойнее, чем у конкурентов.

-9
-10

Здесь дополнительное время на размышления действительно дало эффект.

Итог: стоит ли использовать режим расширенного мышления?

🔹 Плюсы: Идеален для креативных задач – помогает генерировать идеи, анализировать их и совершенствовать результат.

🔹 Минусы: В логических задачах может мешать — ИИ уходит в ненужные размышления.

В тесте на логику ChatGPT o1 оказался самым быстрым и точным. Grok 3 предложил баланс между скоростью и развернутым объяснением.

Когда я спросил Claude 3.7, может ли он думать слишком много, он ответил «Да!», дополнив, что иногда он:

  • Чрезмерно анализирует простые вопросы, делая их излишне сложными
  • Рассматривает слишком много крайних случаев для практических вопросов
  • Тратит время на изучение косвенных аспектов, когда лучше было бы дать целенаправленный ответ.

Anthropic утверждает, что режим расширенного мышления разработан для сложных задач реального мира, таких как программирование и агентные задачи, где дополнительное размышление может быть полезным.

Для разработчиков доступна настройка «бюджета размышлений», позволяющая балансировать скорость, стоимость и качество ответа.

По данным Anthropic, в инженерных тестах (SWE) Claude 3.7 Sonnet показал 62,3% точности, обогнав OpenAI (49,3%).

Вывод

Если вам нужен ИИ для кодинга и сложных размышлений — Claude 3.7 Sonnet стоит попробовать.

Но если важны скорость и чёткость, ChatGPT o1 пока впереди.

От редакции LearnMore:

Мы знаем, как важно упрощать себе работу, а не усложнять, поэтому создали курс “ИИ для работы: как решать задачи быстрее и эффективнее”. Переходите по ссылке и делегируйте рутинные задачи, чтобы освободить время на более важные дела!

Grok 3
39 тыс интересуются