442 подписчика

Новости ИИ: релиз Claude Fable 5 и Mythos 5 - характеристики, бенчмарки и условия доступа

10 июня10 июн

3 мин

9 июня 2026 года компания Anthropic представила новое поколение моделей «класса Mythos». Релиз включает общедоступную версию Claude Fable 5 и специализированную Claude Mythos 5 для закрытого тестирования. Если отбросить маркетинговые заявления, вот на чем можно сосредоточиться и на что обратить внимание: Новые модели демонстрируют значительный отрыв от предыдущего поколения (Opus 4.8) и конкурентов (GPT-5.5) в задачах, требующих длительной автономии и сложного рассуждения. На тесте SWE-Bench Pro модель набрала 80,3% (против 69,2% у Opus 4.8 и 58,6% у GPT-5.5). В тесте FrontierCode (Diamond) результат составил 29,3%, что более чем в два раза превышает показатели Opus 4.8 (13,4%). Кейс Stripe: автоматизированная миграция Ruby-кода объемом 50 млн строк была выполнена за один день, что ранее оценивалось в два месяца работы команды инженеров. Модель способна восстанавливать исходный код веб-приложения на основе скриншотов. В игровом тесте Pokémon FireRed модель прошла игру, используя только

Оглавление

1. Ключевые показатели производительности (Бенчмарки)
Программирование (Agentic Coding)
Визуальный анализ (Vision)

9 июня 2026 года компания Anthropic представила новое поколение моделей «класса Mythos». Релиз включает общедоступную версию Claude Fable 5 и специализированную Claude Mythos 5 для закрытого тестирования. Если отбросить маркетинговые заявления, вот на чем можно сосредоточиться и на что обратить внимание:

1. Ключевые показатели производительности (Бенчмарки)

Новые модели демонстрируют значительный отрыв от предыдущего поколения (Opus 4.8) и конкурентов (GPT-5.5) в задачах, требующих длительной автономии и сложного рассуждения.

Программирование (Agentic Coding)

На тесте SWE-Bench Pro модель набрала 80,3% (против 69,2% у Opus 4.8 и 58,6% у GPT-5.5).

В тесте FrontierCode (Diamond) результат составил 29,3%, что более чем в два раза превышает показатели Opus 4.8 (13,4%).

Кейс Stripe: автоматизированная миграция Ruby-кода объемом 50 млн строк была выполнена за один день, что ранее оценивалось в два месяца работы команды инженеров.

Визуальный анализ (Vision)

Модель способна восстанавливать исходный код веб-приложения на основе скриншотов.

В игровом тесте Pokémon FireRed модель прошла игру, используя только визуальный поток данных без дополнительных инструментов навигации или доступа к состоянию игры.

Аналитика и наука

На тесте Hebbia Finance Benchmark зафиксированы высшие баллы в интерпретации графиков и таблиц.

В биологических исследованиях гипотезы Mythos 5 в 80% случаев оценивались учеными как более предпочтительные по сравнению с моделями класса Opus.

2. Изменения в архитектуре доступа и безопасности

Anthropic внедрила новую систему многоуровневой безопасности, которая напрямую влияет на пользовательский опыт.

Механизм Fallback (Откат)

Если запрос классифицируется как потенциально опасный (кибербезопасность, биология, химия), выполнение задачи автоматически передается модели Claude Opus 4.8. Согласно данным Anthropic, это происходит менее чем в 5% сессий.

Разделение моделей: Fable 5

Модель со строгими фильтрами (Safeguards) для общего использования.
Mythos 5: Идентичная базовая модель, но с отключенными фильтрами в области кибербезопасности. Доступна только участникам Project Glasswing и госсектору США.

Политика хранения данных

Для моделей этого класса вводится обязательное 30-дневное хранение данных (включая бизнес-аккаунты) для мониторинга попыток взлома (jailbreaking) и сокращения числа ложных срабатываний фильтров.

3. Экономика и условия использования

Модели стали дешевле предшественника (Mythos Preview), но дороже массовых решений.

Стоимость API

10$ за 1 млн входных токенов
50$ за 1 млн выходных токенов

График доступности для подписчиков (Pro, Team, Enterprise)

До 22 июня 2026 года: Модель включена в подписку без дополнительной платы
С 23 июня 2026 года: Модель будет удалена из стандартных тарифных планов и станет доступна только по системе кредитов (usage credits) из-за ограничений вычислительных мощностей

Резюме: ключевое

Потеря мощности при проверках

Пользователи могут незаметно для себя переключаться на более слабую Opus 4.8, если их запросы касаются чувствительных, либо опасных тем.

Конфиденциальность

Бизнес-клиентам следует учитывать 30-дневный период логгирования данных, который Anthropic называет необходимым условием безопасности.

Автономия

Основной акцент сделан на long-horizon tasks (длительные задачи). Модель эффективнее всего работает, когда ей делегируют целые цепочки действий (например, в CAD-редакторах или при управлении сложными симуляциями типа Factorio), а не просто ведут диалог.

Немного маркетинга

Вендор заявляет "попробуйте быстро, пока не стало больно" - имеется ввиду, что 22 июня наступит очень скоро и остается совсем немного времени бесплатно попробовать новую вкусняшку 🤡

Гейминг

5,79 млн интересуются