10 подписчиков

Anthropic выкатили Claude Sonnet 4.6

18 февраля18 фев

2 мин

Anthropic продолжает придерживаться своей агрессивной стратегии: их модель сегмента (Sonnet) теперь официально стала умнее, чем их же топовый флагман полугодовой давности (Opus 4.5). При этом цена за токены не изменилась, а модель уже доступна всем пользователям (Free и Pro) по умолчанию. Sonnet 4.6 получила контекстное окно в 1 000 000 токенов (в бета-версии). Но главное здесь не размер, а технология Context Compaction: Если в октябре 2024-го функция управления компьютером была «глючной» игрушкой, то в версии 4.6 она показывает прорыв в бенчмарке OSWorld. Разработчики (включая команды GitHub и Cursor) отмечают, что Sonnet 4.6 стала значительно меньше «лениться». В симуляции управления бизнесом Sonnet 4.6 показала уникальную стратегию: модель готова инвестировать в ресурсы («capacity») первые 10 месяцев, работая в убыток, чтобы в конце резко выйти на максимальную прибыль. Это говорит о том, что у ИИ появилось горизонтальное планирование — понимание долгосрочных целей вместо сиюминутног

Оглавление

1. Миллион контекста и «умное» сжатие
2. Computer Use: От экспериментов к «человеческому» уровню
3. Прощай, «ленивый» кодинг

1. Миллион контекста и «умное» сжатие

Sonnet 4.6 получила контекстное окно в 1 000 000 токенов (в бета-версии). Но главное здесь не размер, а технология Context Compaction:

Как это работает: По мере того как диалог приближается к лимиту, модель сама суммирует старые части переписки.
Профит: Это решает вечную проблему «деменции» ИИ в длинных сессиях. Модель не просто хранит данные, она эффективнее рассуждает во всем объеме контекста.

2. Computer Use: От экспериментов к «человеческому» уровню

Если в октябре 2024-го функция управления компьютером была «глючной» игрушкой, то в версии 4.6 она показывает прорыв в бенчмарке OSWorld.

Модель взаимодействует с интерфейсами (Chrome, таблицы, CRM) через виртуальную мышь и клавиатуру.
В страховых и финансовых тестах (Pace) точность достигла 94%. Теперь ей можно доверить заполнение многошаговых веб-форм или сбор данных из разных вкладок браузера без написания API-коннекторов.

3. Прощай, «ленивый» кодинг

Разработчики (включая команды GitHub и Cursor) отмечают, что Sonnet 4.6 стала значительно меньше «лениться».

Логика: В 70% случаев тестеры предпочли 4.6 старой версии 4.5. Она лучше консолидирует общую логику и не дублирует код.
Сравнение: Пользователи предпочитают её старому флагману Opus 4.5 в 59% случаев. Она быстрее, дешевле и при этом точнее следует сложным инструкциям.
Дизайн: Фронтенд-разработчики отмечают более «чистый» вкус модели — она сразу выдает адекватные макеты и анимации, которые не стыдно пускать в продакшн.

4. Стратегическое планирование (Vending-Bench)

В симуляции управления бизнесом Sonnet 4.6 показала уникальную стратегию: модель готова инвестировать в ресурсы («capacity») первые 10 месяцев, работая в убыток, чтобы в конце резко выйти на максимальную прибыль. Это говорит о том, что у ИИ появилось горизонтальное планирование — понимание долгосрочных целей вместо сиюминутного выполнения промпта.

Технические итоги в цифрах против конкурентов:

OfficeQA: Модель сравнялась с Opus 4.6 в работе с энтерпрайз-документами (графики, таблицы, PDF).
Adaptive Thinking: Модель сама определяет, сколько «усилий» (времени на рассуждение) нужно затратить на конкретный запрос, оптимизируя скорость ответа.

Вердикт: Если вам нужно решать сложные цепочки задач (CRM + Excel + поиск в сети) или рефакторить код, Sonnet 4.6 на данный момент — самый сбалансированный инструмент на рынке по соотношению «цена/интеллект». Флагманский Opus 4.6 всё ещё остается королем в экстремально сложном ревью кода, но для 95% рабочих задач Sonnet теперь — безальтернативный вариант.

Больше новостей о нейросетях в телеграм:

t.me

Mosto.Ai News