Эффи Уэбб, специалист по техническим новостям Business Insider’s London, протестировала Claude 3.7 Sonnet от Anthropic.
Переведено, но не озвучено командой LearnMore.tech с сайта https://www.businessinsider.com/, далее от лица автора
Его режим «расширенного мышления» обходит ChatGPT и Grok, но иногда он слишком зацикливается.
Компания Anthropic представила Claude 3.7 Sonnet с новым режимом, который позволяет глубже анализировать сложные вопросы.
Business Insider сравнил его «расширенное мышление» с ChatGPT и Grok, чтобы проверить, как они справляются с логическими и творческими задачами.
Выводы:
✅ В логических вопросах режим «расширенного мышления» скорее мешал, чем помогал.
✅ В творчестве он оказался более полезным и позволил написать стихотворение лучше, чем остальные.
Anthropic делает ставку на новый подход к мышлению ИИ
Компания утверждает, что Claude 3.7 Sonnet — первая в мире гибридная модель рассуждений. Это означает, что он умеет переключаться между:
- Быстрыми ответами, требующими минимальных вычислений.
- Детальным пошаговым анализом для сложных задач.
«Мы разработали гибридное мышление по иной философии, чем другие модели на рынке», — сказал представитель Anthropic в интервью Business Insider.
«Мы рассматриваем рассуждение как одну из ключевых способностей продвинутой модели ИИ, а не как отдельную функцию».
Claude 3.7 Sonnet доступен бесплатно. Однако режим расширенного мышления включён только в версии Pro за $20 в месяц.
Насколько Claude 3.7 Sonnet хорош на практике?
Логика: больше размышлений — лучше ответы?
Первая проверка — загадка.
Все три модели получили одинаковый вопрос:
Если вы смотрите, то не видите меня. Если вы увидите меня, то не сможете увидеть ничего другого. Я могу сделать так, что произойдет все, что вы захотите, но потом все возвращается на круги своя. Кто я?
📌 ChatGPT o1: дал правильный ответ — «сон» — за 6 секунд и кратко объяснил логику.
📌 Grok 3 (Think Mode): думал 32 секунды, пошагово разобрав процесс рассуждений.
📌 Claude 3.7 (обычный режим): быстро ответил правильно, но неуверенно.
📌 Claude 3.7 (расширенное мышление): думал почти минуту, сначала предложил «галлюцинацию» и «виртуальную реальность», затем пришёл к «сну».
В итоге он всё равно дал правильный ответ, но его путь к нему оказался сложным и затянутым. Модель отмечала собственную нерешительность очень человеческим способом:
Anthropic признаёт:
«Как и человек, Claude иногда может запутаться в неверных, вводящих в заблуждение или недоработанных мыслях. Некоторым пользователям это покажется полезным, а другим — раздражающим», — говорится в блоге компании.
Креативность: помогает ли больше размышлений создавать лучшие идеи?
Вторая проверка — просьба написать стихотворение о разумности ИИ.
Дополнительное условие:
«Используй несколько метафор, прежде чем выбрать одну».
📌 ChatGPT o1: за несколько секунд написал «Калейдоскоп искр» — стандартный текст про ИИ как мерцающий свет. Он не выбрал одну метафору.
📌 Grok 3: потратил 22 секунды, придумал «Цифровую грёзу» — сон как символ осознающего себя ИИ. Возможно, его вдохновила предыдущая загадка.
📌 Claude 3.7 (обычный режим): быстро предложил четыре метафоры (зеркало, семя, океан, симфония), затем выбрал океан и написал «Эхо бытия».
📌 Claude 3.7 (расширенное мышление): думал 45 секунд, предложил семь метафор, прежде чем выбрать одну.
Итоговое стихотворение Claude 3.7 Sonnet — «Возникновение» — получилось глубже и многослойнее, чем у конкурентов.
Здесь дополнительное время на размышления действительно дало эффект.
Итог: стоит ли использовать режим расширенного мышления?
🔹 Плюсы: Идеален для креативных задач – помогает генерировать идеи, анализировать их и совершенствовать результат.
🔹 Минусы: В логических задачах может мешать — ИИ уходит в ненужные размышления.
В тесте на логику ChatGPT o1 оказался самым быстрым и точным. Grok 3 предложил баланс между скоростью и развернутым объяснением.
Когда я спросил Claude 3.7, может ли он думать слишком много, он ответил «Да!», дополнив, что иногда он:
- Чрезмерно анализирует простые вопросы, делая их излишне сложными
- Рассматривает слишком много крайних случаев для практических вопросов
- Тратит время на изучение косвенных аспектов, когда лучше было бы дать целенаправленный ответ.
Anthropic утверждает, что режим расширенного мышления разработан для сложных задач реального мира, таких как программирование и агентные задачи, где дополнительное размышление может быть полезным.
Для разработчиков доступна настройка «бюджета размышлений», позволяющая балансировать скорость, стоимость и качество ответа.
По данным Anthropic, в инженерных тестах (SWE) Claude 3.7 Sonnet показал 62,3% точности, обогнав OpenAI (49,3%).
Вывод
Если вам нужен ИИ для кодинга и сложных размышлений — Claude 3.7 Sonnet стоит попробовать.
Но если важны скорость и чёткость, ChatGPT o1 пока впереди.
От редакции LearnMore:
Мы знаем, как важно упрощать себе работу, а не усложнять, поэтому создали курс “ИИ для работы: как решать задачи быстрее и эффективнее”. Переходите по ссылке и делегируйте рутинные задачи, чтобы освободить время на более важные дела!