Когда вы общаетесь с ChatGPT, ответ генерируется по одному слову (токену). Скорость — примерно 50–80 токенов в секунду на лучших NVIDIA-серверах. Это значит, ответ из 500 слов занимает 8–10 секунд. На прошлой неделе компания Cerebras запустила что-то совсем другое. Языковая модель Kimi K2.6 на триллион параметров работает у них со скоростью 1000 токенов в секунду. В 10–15 раз быстрее, чем у конкурентов. Большие посты — за секунду. Длинные программы — за пять. Как они это сделали. Cerebras много лет шла другим путём, нежели Nvidia. Если у Nvidia GPU — это сетка из тысяч маленьких ядер с памятью HBM на отдельном чипе, у Cerebras — один гигантский кристалл размером с пиццу с 4 триллионами транзисторов и встроенной памятью. Главное преимущество — нет «бутылочного горлышка»: данные «лежат рядом» с вычислителями. Раньше у Cerebras крупнейшей моделью была GLM 4.7 на 358 миллиардов параметров. Теперь они запустили Kimi K2.6 на триллион — и не уронили скорость. Что это даёт. Скорость на инферен
1000 токенов в секунду — почему скорость Cerebras меняет правила игры для AI
24 мая24 мая
1
1 мин