557 подписчиков

Claude Sonnet 4.5: новый стандарт в программировании и ограничение в физике

13 октября 202513 окт 2025

2 мин

⚙️ Новая модель Claude Sonnet 4.5 от Anthropic показала рекордные результаты на практических тестах по программированию, но остаётся уязвимой в задачах, связанных с физическим мышлением. Это подчеркивает границы текущего ИИ — высокую специализацию при отсутствии универсального интеллекта. Claude Sonnet 4.5 демонстрирует 25,7% прирост производительности по сравнению с предыдущей версиейClaude 3.7 Sonnet, согласно комплексному анализу All-in-One AI. На тестах SWE-bench Verified — проверке решений на реальных GitHub-репозиториях — модель показала 77,2% точности в базовом режиме и 82% при параллельных вычислениях, что является лучшим результатом среди публичных моделей. Для справки: SWE-bench оценивает способность ИИ понимать кодовую базу и вносить исправления без ручных подсказок. Claude Sonnet 4.5 успешно справляется с задачами на уровне профессиональных разработчиков. Несмотря на успехи в кодинге, модель остаётся слабой в задачах, связанных с пространственным и физическим мышлением. В т

Оглавление

Прорыв в кодинге и автоматизации
Слабое место — физическая интуиция
Claude Code 2.0 и новая автономия агентов

Прорыв в кодинге и автоматизации

Claude Sonnet 4.5 демонстрирует 25,7% прирост производительности по сравнению с предыдущей версиейClaude 3.7 Sonnet, согласно комплексному анализу All-in-One AI. На тестах SWE-bench Verified — проверке решений на реальных GitHub-репозиториях — модель показала 77,2% точности в базовом режиме и 82% при параллельных вычислениях, что является лучшим результатом среди публичных моделей.

Для справки: SWE-bench оценивает способность ИИ понимать кодовую базу и вносить исправления без ручных подсказок. Claude Sonnet 4.5 успешно справляется с задачами на уровне профессиональных разработчиков.

Слабое место — физическая интуиция

Несмотря на успехи в кодинге, модель остаётся слабой в задачах, связанных с пространственным и физическим мышлением. В тесте VPCT (Visual Physical Common-sense Test), где нужно предсказать движение объектов, Claude Sonnet 4.5 показала 39,8% точности, что едва выше случайного угадывания. Для сравнения, человек стабильно демонстрирует 100%.

Этот результат подчёркивает ключевую проблему современных LLM — отсутствие реального понимания мира, несмотря на отличную работу с абстрактными структурами, текстами и кодом.

Claude Code 2.0 и новая автономия агентов

В обновлённой системе Claude Code 2.0 Anthropic представила три новых механизма:

Субагенты — для параллельного выполнения отдельных задач, например, фронтенда и API.
Хуки — для автоматического запуска действий в нужный момент.
Чекпоинты — сохранение не только кода, но и контекста беседы; команда /rewind позволяет откатить неудачные изменения и очистить историю от ошибок.

Эти функции делают модель более автономной и управляемой, приближая её к формату самоорганизующихся ИИ-систем, способных работать над проектом без постоянного участия человека.

Автоматизация как принцип

По аналогии с Claude, Kineiro.ru использует архитектуру управляемой автоматизации: система берёт на себя рутинные процессы создания контента, анализирует метрики и адаптирует стратегию под разные площадки, оставляя человеку контроль над идеей и направлением.

Точка размышления

Если ИИ уже превосходит человека в программировании, но не способен предсказать, как упадёт мяч в ведро, — не означает ли это, что путь к настоящему искусственному разуму лежит не через код, а через понимание физического мира?