Найти в Дзене
RockAPI.ru

Первая в мире модель гибридного мышления: Claude 3.7 Sonnet выходит на сцену, превосходя всех конкурентов в реальном программировании

Вчера вечером информация о новой модели от Anthropic начала активно распространяться в AI-сообществе, однако речь шла не об ожидаемой Claude 4.0, а о версии 3.7 Sonnet. Источник изображения: https://x.com/btibor91/status/1893970824484581825 Сегодня рано утром новая флагманская модель Anthropic была представлена согласно плану. Официально выпущена самая интеллектуальная модель компании на сегодняшний день и первая в мире модель гибридного мышления — Claude 3.7 Sonnet. Claude 3.7 Sonnet может генерировать практически мгновенные ответы или демонстрировать пользователю расширенное, пошаговое мышление. По словам Anthropic, «одна модель, два способа мышления» (One model, two ways to think.), то есть стандартный и расширенный режимы мышления. Кроме того, пользователи API могут детально контролировать время размышления модели. Помимо выпуска Claude 3.7 Sonnet, Anthropic также представила инструмент командной строки Claude Code для интеллектуального программирования. В настоящее время он доступ
Оглавление

Вчера вечером информация о новой модели от Anthropic начала активно распространяться в AI-сообществе, однако речь шла не об ожидаемой Claude 4.0, а о версии 3.7 Sonnet.

Источник изображения: https://x.com/btibor91/status/1893970824484581825

Сегодня рано утром новая флагманская модель Anthropic была представлена согласно плану. Официально выпущена самая интеллектуальная модель компании на сегодняшний день и первая в мире модель гибридного мышления — Claude 3.7 Sonnet.

-2

Claude 3.7 Sonnet может генерировать практически мгновенные ответы или демонстрировать пользователю расширенное, пошаговое мышление. По словам Anthropic, «одна модель, два способа мышления» (One model, two ways to think.), то есть стандартный и расширенный режимы мышления. Кроме того, пользователи API могут детально контролировать время размышления модели.

-3

Помимо выпуска Claude 3.7 Sonnet, Anthropic также представила инструмент командной строки Claude Code для интеллектуального программирования. В настоящее время он доступен в ограниченной исследовательской версии, позволяя разработчикам делегировать широкий спектр инженерных задач непосредственно из терминала Клоду.

-4

В сфере программирования Anthropic также улучшила опыт кодирования на Claude.ai. Интеграция с GitHub теперь доступна во всех планах Claude, позволяя разработчикам подключать свои репозитории кода напрямую к Claude. Благодаря более глубокому пониманию личных, рабочих и проектов с открытым исходным кодом, Claude станет более мощным партнером для пользователей в исправлении ошибок, разработке функций и создании документации в проектах GitHub.

Таким образом, благодаря улучшениям в программировании и фронтенд-разработке, Claude 3.7 Sonnet становится лучшей моделью для программирования от Anthropic на сегодняшний день.

В настоящее время новая модель Claude 3.7 Sonnet доступна через все планы Claude (включая Free, Pro, Team и Enterprise), а также через Anthropic API, Amazon Bedrock и Google Cloud Vertex AI. Все пользователи, кроме бесплатных, могут испытать расширенный режим мышления.

В стандартном и расширенном режимах мышления цена Claude 3.7 Sonnet такая же, как у предыдущего поколения (Claude 3.5 Sonnet): 3 доллара за миллион входящих токенов и 15 долларов за миллион исходящих токенов (включая токены размышления).

Как заметил один из пользователей: «Каждый релиз от Anthropic заставляет улыбаться и вызывает восторг!»

-5

Наиболее мощный Claude 3.7 Sonnet

Передовое мышление становится доступным

Anthropic утверждает, что их подход к разработке Claude 3.7 Sonnet отличается от других моделей мышления на рынке. Подобно тому, как люди используют один мозг для быстрых реакций и глубоких размышлений, Anthropic считает, что мышление должно отражать комплексные возможности передовых моделей, а не быть полностью отдельными моделями. Этот унифицированный подход создаст более плавный опыт для пользователей.

Следуя этой концепции, Claude 3.7 Sonnet сформировал множество уникальных преимуществ.

Во-первых, Claude 3.7 Sonnet является одновременно обычной LLM и моделью мышления. Вы можете выбирать, когда хотите, чтобы модель отвечала нормально, а когда хотите, чтобы она думала дольше перед ответом. В стандартном режиме Claude 3.7 Sonnet — это улучшенная версия предыдущего поколения Claude 3.5 Sonnet. В режиме расширенного мышления он проводит самоанализ перед ответом, что повышает его производительность в математике, физике, следовании инструкциям, программировании и многих других задачах. Anthropic обнаружила, что подсказки работают с моделью аналогично в обоих режимах.

Во-вторых, при использовании Claude 3.7 Sonnet через API пользователи также могут контролировать бюджет размышлений. Вы можете указать Клоду думать не более N токенов. Для любого значения N выходной лимит составляет 128K токенов. Это позволяет пользователям находить баланс между скоростью (и стоимостью) и качеством ответа.

В-третьих, при разработке собственной модели мышления Anthropic меньше оптимизировала ее для математических и задач по информатике из соревнований, сместив фокус на реальные задачи, которые лучше отражают то, как предприятия фактически используют LLM.

Давайте посмотрим на результаты эталонных тестов Claude 3.7 Sonnet. На SWE-bench Verified (тестовый набор данных, оценивающий способность LLM решать реальные проблемы программного обеспечения на GitHub) Claude 3.7 Sonnet достиг SOTA-производительности, значительно превосходя Claude 3.5 Sonnet, o3-mini (high) и o1 от OpenAI, а также DeepSeek R1.

-6

На TAU-bench (платформа для оценки способности LLM взаимодействовать с инструментами в сложных реальных сценариях) Claude 3.7 Sonnet также достиг SOTA-производительности, превзойдя Claude 3.5 Sonnet и o1 от OpenAI.

-7

Claude 3.7 Sonnet демонстрирует выдающиеся результаты в выполнении инструкций, общем мышлении, многомодальных возможностях и интеллектуальном программировании, с расширенным мышлением, обеспечивающим значительные улучшения в математике и науке, но в некоторых аспектах он все еще уступает o3-mini (high) от OpenAI, Grok-3 Beta и другим.

-8

Можно заметить, что для Claude Sonnet 3.7 Anthropic сделала акцент на способностях программирования, в то время как другие области, похоже, не так важны. Очевидно, что Anthropic хочет позиционировать Sonnet как AI для программирования (и уже это делает).

-9

Источник: https://x.com/kimmonismus/status/1894098443859079609

Кроме того, помимо традиционных тестов, Claude 3.7 Sonnet даже может превзойти все предыдущие модели в тестах по игре Pokémon.

Anthropic провела множество ранних тестов с партнерами, доказывающих всестороннее лидерство Claude в области программирования.

Cursor отмечает, что Claude снова становится лучшим выбором для реальных задач программирования, с заметными улучшениями от работы со сложными кодовыми базами до продвинутого использования инструментов. Cognition обнаружила, что Claude значительно превосходит любую другую модель в планировании изменений кода и обработке полностековых обновлений.

Vercel подчеркнул выдающуюся точность Claude в сложных агентных рабочих процессах, а Replit успешно использует Claude для создания сложных веб-приложений и панелей мониторинга с нуля, в то время как другие модели не справляются. В оценке Canva, Claude последовательно пишет код с превосходным дизайнерским вкусом, готовый к производству, со значительным сокращением ошибок.

Claude Code

Интеллектуальное программирование делает разработку более удобной

С июня 2024 года Sonnet является предпочтительной моделью для разработчиков по всему миру. Сегодня Anthropic представила свой первый инструмент для интеллектуального программирования Claude Code (в ограниченной исследовательской версии), дополнительно расширяя возможности разработчиков.

По функционалу Claude Code является активным соавтором, который может искать и читать код, редактировать файлы, писать и запускать тесты, фиксировать и отправлять код на GitHub, а также использовать инструменты командной строки.

Рассмотрим несколько примеров использования, например, объяснение структуры проекта:

-10

Написание тестов:

-11

Создание приложений:

-12

Хотя это ранний продукт, Claude Code уже стал незаменимым для команды Anthropic, особенно для разработки через тестирование, отладки сложных проблем и масштабного рефакторинга.

В ранних тестах Claude Code мог выполнять задачи, которые обычно требуют более 45 минут ручной работы, за один раз, сокращая время разработки и накладные расходы.

В ближайшие недели Anthropic планирует постоянно улучшать Claude Code на основе собственного использования, включая повышение надежности вызова инструментов, добавление поддержки долгосрочных команд, улучшение внутриприложенного рендеринга и расширение понимания Клодом своих возможностей.

Цель Claude Code — лучше понять, как разработчики используют Claude для программирования, чтобы информировать будущие улучшения модели. Присоединившись к этой предварительной версии, пользователи получат доступ к тем же мощным инструментам, которые Anthropic использует для создания и улучшения Claude.

Ответственное построение и взгляд в будущее

Anthropic провела обширное тестирование и оценку Claude 3.7 Sonnet и сотрудничала с внешними экспертами для обеспечения соответствия своим стандартам безопасности и надежности.

В то же время Claude 3.7 Sonnet более тонко различает вредоносные и доброкачественные запросы. По сравнению с предыдущим поколением, количество ненужных отказов сократилось на 45%.

-13

Результаты оценки точности цепочки мысли (CoT).

В карте модели Claude 3.7 Sonnet Anthropic детально описывает свою стратегию ответственного масштабирования и то, как другие AI-лаборатории и исследователи применяют ее в своей работе. Кроме того, в карте модели представлен обзор новых рисков, связанных с использованием компьютеров, особенно атак быстрого внедрения, и объясняется, как Anthropic оценивает эти уязвимости и обучает Claude противостоять и смягчать их.

Более того, карта модели исследует потенциальные преимущества моделей мышления в области безопасности, а также понимание того, как модели принимают решения, и действительно ли мышление модели заслуживает доверия и надежно.

-14

Ссылка на системную карту: https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

В отношении выпущенных Claude 3.7 Sonnet и Claude Code Anthropic считает, что они знаменуют важный шаг в развитии AI-систем, которые начинают по-настоящему усиливать человеческие возможности. Благодаря глубокому мышлению, автономной работе и эффективному сотрудничеству мы ближе к будущему, где AI обогащает и расширяет человеческие способности.

Anthropic также представила действительно захватывающую перспективу развития, надеясь, что к 2025 году Claude сможет стать интеллектуальным агентом экспертного уровня, способным работать самостоятельно в течение нескольких часов; к 2027 году они надеются, что Claude сможет решать сложные проблемы, на решение которых у человеческих команд ушли бы годы.

-15

Ссылка на блог: https://www.anthropic.com/news/claude-3-7-sonnet

Упомянутую в статье модель нейронной сети искусственного интеллекта можно бесплатно опробовать на https://www.rockapi.ru/. Приглашаем вас попробовать!

Александр — сооснователь RockAPI, эксперт в области ИИ и разработки API. RockAPI предоставляет неограниченный доступ к передовым моделям ИИ, таким как DeepSeek, GPT-4o, Claude и Gemini, с простой интеграцией и гибкими способами оплаты. Зарегистрируйтесь на https://console.rockapi.ru/ и получите бесплатный стартовый кредит для новых пользователей — начните свое путешествие в мир ИИ уже сегодня!