1000 токенов в секунду — почему скорость Cerebras меняет правила игры для AI

24 мая24 мая

1 мин

Когда вы общаетесь с ChatGPT, ответ генерируется по одному слову (токену). Скорость — примерно 50–80 токенов в секунду на лучших NVIDIA-серверах. Это значит, ответ из 500 слов занимает 8–10 секунд. На прошлой неделе компания Cerebras запустила что-то совсем другое. Языковая модель Kimi K2.6 на триллион параметров работает у них со скоростью 1000 токенов в секунду. В 10–15 раз быстрее, чем у конкурентов. Большие посты — за секунду. Длинные программы — за пять. Как они это сделали. Cerebras много лет шла другим путём, нежели Nvidia. Если у Nvidia GPU — это сетка из тысяч маленьких ядер с памятью HBM на отдельном чипе, у Cerebras — один гигантский кристалл размером с пиццу с 4 триллионами транзисторов и встроенной памятью. Главное преимущество — нет «бутылочного горлышка»: данные «лежат рядом» с вычислителями. Раньше у Cerebras крупнейшей моделью была GLM 4.7 на 358 миллиардов параметров. Теперь они запустили Kimi K2.6 на триллион — и не уронили скорость. Что это даёт. Скорость на инферен

На прошлой неделе компания Cerebras запустила что-то совсем другое. Языковая модель Kimi K2.6 на триллион параметров работает у них со скоростью 1000 токенов в секунду. В 10–15 раз быстрее, чем у конкурентов. Большие посты — за секунду. Длинные программы — за пять.

Как они это сделали. Cerebras много лет шла другим путём, нежели Nvidia. Если у Nvidia GPU — это сетка из тысяч маленьких ядер с памятью HBM на отдельном чипе, у Cerebras — один гигантский кристалл размером с пиццу с 4 триллионами транзисторов и встроенной памятью. Главное преимущество — нет «бутылочного горлышка»: данные «лежат рядом» с вычислителями. Раньше у Cerebras крупнейшей моделью была GLM 4.7 на 358 миллиардов параметров. Теперь они запустили Kimi K2.6 на триллион — и не уронили скорость.

Что это даёт. Скорость на инференсе важна для трёх вещей. Первая — мгновенные ответы. Разница между 8 секундами ожидания и 0.8 секунды — гигантская в субъективном опыте. ChatGPT перестаёт быть «AI-чатом», становится «AI-собеседником». Вторая — агенты, которые думают долго. Современные AI-агенты типа Claude Code делают сотни внутренних шагов рассуждения. На обычной скорости комплексная задача занимает 30 минут, на скорости Cerebras — 3. Третья — стоимость. Скорость = меньше времени на сервере = ниже цена за токен. Цены на API могут упасть в 3–5 раз.

Куда деньги. На прошлой неделе Cerebras вышла на IPO. Привлекли 5,5 миллиарда долларов, оценка — 60 миллиардов. Для сравнения Nvidia стоит 4 триллиона. Cerebras — «маленькая угроза монополии Nvidia», но реальная. По дорожной карте следующее поколение в 2027 году должно дать ещё в 3–5 раз больше скорости.

Если интересно сравнить скорость и качество разных моделей под свою задачу — есть Telegram-бот Quantium с 30+ моделями в одном интерфейсе. Можно за один вечер прогнать один и тот же запрос через 5–6 моделей и понять, какая под что лучше. Список моделей и тарифы — на quantiumbot.ai.