23 подписчика

Вчера вышла новая версия Claude Opus 4

6 февраля6 фев

1 мин

6. Я изучила анонс и отдельный разбор по финансам. Сегодня протестировала. ✨ Общее впечатление Это не новое поколение, а серьезный апгрейд Opus 4.5. Модель стала умнее в коде, дольше держит фокус на сложных задачах, лучше работает с большими объемами информации. Для меня лично самое интересно: 1️⃣ Контекст. Впервые для линейки Opus - это миллион токенов (помните, что это такое?). И это не просто цифра в характеристиках: на тесте «найди иголку в стоге сена» Opus 4.6 набирает 76%, тогда как Sonnet 4.5 всего 18.5%. Модель действительно использует длинный контекст, а не тонет в нем. 2️⃣ Для финансистов. На внутреннем бенчмарке Real-World Finance (около 50 кейсов из инвестбанкинга, private equity, корпоративных финансов) Opus 4.6 обогнал Sonnet 4.5. Это задачи со спредшитами, презентациями, документами. По сути всё, чем аналитики занимаются каждый день. На внешних бенчмарках по анализу SEC-отчетов и налоговому праву лучший результат на рынке. ❗️Если кому-то нужно чуть глубже: ✨ по иссл

Вчера вышла новая версия Claude Opus 4.6. Я изучила анонс и отдельный разбор по финансам. Сегодня протестировала.

✨ Общее впечатление

Это не новое поколение, а серьезный апгрейд Opus 4.5. Модель стала умнее в коде, дольше держит фокус на сложных задачах, лучше работает с большими объемами информации.

Для меня лично самое интересно:

1️⃣ Контекст. Впервые для линейки Opus - это миллион токенов (помните, что это такое?). И это не просто цифра в характеристиках: на тесте «найди иголку в стоге сена» Opus 4.6 набирает 76%, тогда как Sonnet 4.5 всего 18.5%. Модель действительно использует длинный контекст, а не тонет в нем.

2️⃣ Для финансистов. На внутреннем бенчмарке Real-World Finance (около 50 кейсов из инвестбанкинга, private equity, корпоративных финансов) Opus 4.6 обогнал Sonnet 4.5. Это задачи со спредшитами, презентациями, документами. По сути всё, чем аналитики занимаются каждый день.

На внешних бенчмарках по анализу SEC-отчетов и налоговому праву лучший результат на рынке.

❗️Если кому-то нужно чуть глубже:

✨ по исследованиям: модель научилась вытаскивать конкретные данные из больших неструктурированных массивов, не просто саммари, а точный ответ на вопрос;

✨ по анализу: лучше работает с длинными многошаговыми задачами, не теряет фокус;

✨ по созданию: выдает готовые к использованию таблицы и презентации с первой попытки.

4️⃣ Инструменты.

✨Если используете "Claude in Excel" серьезно обновили: сводные таблицы, графики, условное форматирование, сортировка, валидация данных, drag-and-drop для нескольких файлов. Модель теперь сначала проясняет допущения, потом считает.

✨"Claude in PowerPoint" вышел в превью (честно очень жду). Читает ваши шаблоны, шрифты, мастер-слайды: работает в рамках корпоративного стиля.

5️⃣ Код и агентность. Модель лучше планирует, дольше держит фокус на сложных задачах, увереннее работает с большими кодовыми базами. Научилась ловить собственные ошибки при ревью.

⭐️Я уже попробовала спроектировать приложение под новый проект - шикарный результат! Обязательно попробуйте!

Anthropic честно пишут: проверяйте выводы модели, человеческое суждение по-прежнему необходимо. Но направление понятно: ИИ все глубже входит в профессиональную аналитику.

Всем здоровья, мира и добра!

#ИИOpus4.6