1533 подписчика

🤖 Claude Sonnet 4.6: обзор, бенчмарки, сравнение

26 февраля26 фев

1 мин

Тип: Технический обзор Источник: Habr Средняя модель, которая в реальных тестах обгоняет флагмана — и это не маркетинг. Новый Соннет ломает привычную логику «платишь больше — получаешь лучше». Контекст: Anthropic выпускает модели трёх уровней. Опус — это флагман: самая мощная и дорогая модель ($15/$75 за млн токенов). Соннет — средний уровень, быстрее и дешевле. Хайку — лёгкая и быстрая. Раньше разрыв между Опусом и Соннетом был ощутим. Версия 4.6 этот разрыв фактически стёрла. 💡 Главные тезисы: → SWE-bench (исправление багов): 79.6% vs 80.8% у Опуса — разница 1.2%, а цена в 5 раз ниже ($3/$15 против $15/$75) → ARC-AGI-2 (нестандартная логика): рост с 13.6% до 58.3% — прирост в 4+ раза. Модель перестала угадывать — начала рассуждать → Управление компьютером (OSWorld): 72.5% — практически вровень с Опусом (72.7%). Антропик заявляет: уровень человека в навигации по таблицам и веб-формам → В офисных задачах (GDPval-AA) Соннет обогнал Опус — 1633 балла против 1606 → Контекст 1 млн токен

Тип: Технический обзор

Источник: Habr

Средняя модель, которая в реальных тестах обгоняет флагмана — и это не маркетинг. Новый Соннет ломает привычную логику «платишь больше — получаешь лучше».

Контекст: Anthropic выпускает модели трёх уровней. Опус — это флагман: самая мощная и дорогая модель ($15/$75 за млн токенов). Соннет — средний уровень, быстрее и дешевле. Хайку — лёгкая и быстрая. Раньше разрыв между Опусом и Соннетом был ощутим. Версия 4.6 этот разрыв фактически стёрла.

💡 Главные тезисы:

→ SWE-bench (исправление багов): 79.6% vs 80.8% у Опуса — разница 1.2%, а цена в 5 раз ниже ($3/$15 против $15/$75)

→ ARC-AGI-2 (нестандартная логика): рост с 13.6% до 58.3% — прирост в 4+ раза. Модель перестала угадывать — начала рассуждать

→ Управление компьютером (OSWorld): 72.5% — практически вровень с Опусом (72.7%). Антропик заявляет: уровень человека в навигации по таблицам и веб-формам

→ В офисных задачах (GDPval-AA) Соннет обогнал Опус — 1633 балла против 1606

→ Контекст 1 млн токенов (бета) доступен бесплатно всем пользователям. Цена API не изменилась — те же $3/$15

🔍 Наш комментарий:

Ценность материала — в подтверждении тренда: эпоха «один флагман рулит всем» заканчивается. Неочевидный момент: автор тестировал через BotHub с явным промо-уклоном — цифры показательны, но не независимы. Для агентных систем особенно важен результат MCP-Atlas: Соннет (61.3%) обогнал Опус (60.3%).

#ИИ #Нейросети #Разработка