Anthropic представила модель Opus 4.6-fast: скорость выросла в 2,5 раза

СегодняСегодня

~1 мин

Anthropic выпустила модель Opus 4.6-fast, которая генерирует около 100 токенов в секунду — в 2,5 раза быстрее предыдущей версии. Стоимость использования выросла в 6 раз. Пользователи Claude Code могут активировать новую модель командой /fast. При этом квота будет расходоваться быстрее, включая недельные и 5-часовые лимиты. В сообществе обсуждают возможные причины ускорения: • Использование новых аппаратных решений (Groq, Cerebras, TPU Google) • Снижение размера батча для ускорения генерации на пользователя Пример DeepSeek R1 показывает, что при увеличении скорости генерации до 250 токенов в секунду на сессию, общий объем токенов на GPU падает в 6 раз, что компенсируется ростом цены. SemiAnalysis поддерживает подход inferencemax с запуском разных моделей на различных видеокартах. https://dzen.ru/id/5c0e38ff46ef5c00aaa80527

Anthropic выпустила модель Opus 4.6-fast, которая генерирует около 100 токенов в секунду — в 2,5 раза быстрее предыдущей версии. Стоимость использования выросла в 6 раз.

Пользователи Claude Code могут активировать новую модель командой /fast. При этом квота будет расходоваться быстрее, включая недельные и 5-часовые лимиты.

В сообществе обсуждают возможные причины ускорения:

• Использование новых аппаратных решений (Groq, Cerebras, TPU Google)

• Снижение размера батча для ускорения генерации на пользователя

Пример DeepSeek R1 показывает, что при увеличении скорости генерации до 250 токенов в секунду на сессию, общий объем токенов на GPU падает в 6 раз, что компенсируется ростом цены.

SemiAnalysis поддерживает подход inferencemax с запуском разных моделей на различных видеокартах.

https://dzen.ru/id/5c0e38ff46ef5c00aaa80527