САНТА-КЛАРА, Калифорния. На рабочей станции Loud Box от Tenstorrent была запущена модель Llama3.1-70B (точность BF8) производительностью 15 токенов в секунду на пользователя одновременно для 32 пользователей.
Скорость свыше 10 токенов в секунду на пользователя (токенов/с/пользователь) обычно признаётся достаточной для удобочитаемых приложений, таких как Q&A и чат-боты, тогда как API-сервисы на базе Nvidia H100, предлагаемые поставщиками гипермасштабируемых облаков, требуют 20-50 токенов/с. Loud Box от Tenstorrent, версия рабочей станции Quiet Box с воздушным охлаждением , является системой с 8 ускорителями на чипах Wormhole первого поколения. Она поставляется либо в формате рабочей станции, либо как серверная система для монтажа в стойку 4U. Рабочая станция Tenstorrent продается по цене 12 000 долларов США, в то время как системы Nvidia DGX-H100, используемые для гипермасштабирования, стоят более 300 000 долларов за систему с 8 ГПУ.
Команда Tenstorrent сообщила, что считает производительность 15 токенов/с/пользователя лишь этапом разработки и собирается удвоить её на такой же системе с помощью программной оптимизации. Также они намереваются изучить метод спекулятивного декодирования, который может удвоить пропускную способность при вдвое меньшей задержке. Кроме того, можно будет регулировать размеры пакетов, хотя «золотой серединой», похоже, является 32.
«Мы очень довольны результатами», — говорит генеральный директор Tenstorrent Джим Келлер, отмечая, что чипы второго поколения Blackhole удвоят или утроят производительность, когда станут доступны. «Вскоре мы получим действительно хорошие цифры. У нас есть желаемые показатели в инженерных моделях, но результаты сквозного клиентского тестирования пока недостаточны. Поэтому мы продолжаем работать над этим, но все идет довольно хорошо».
Вслед за запуском в течение последних недель сервисов LLM API конкурирующими Groq, SambaNova и Cerebras, внимание отрасли сконцентрировалось на скорости вычислений для автономного пользователя. Теперь эти компании предлагают сервисы API на основе Llama и других моделей с открытым кодом, спроектированных для преодоления относительно медленных скоростей для автономного пользователя, которые предлагает гипермасштабирование на основе Nvidia H100. У Tenstorrent уже есть клиентское облако, используемое в основном для тестирования и разработки; считает ли компания возможным создание систем облачного API на основе продуктов Tenstorrent?
«Наша миссия — это ИИ-ядра и процессоры на базе RISC-V, и мы продаем IP, чипы и системы, затем у нас есть программное обеспечение с открытым кодом, от низкоуровневых прошивок и библиотек ядра до стека «голого железа» (bare metal) и компилятора, где мы используем инфраструктуру MLIR и другие открытые инструменты», — говорит Келлер.
«Конкуренты закрыты и не продают оборудование, поэтому у нас самый разнообразный бизнес».
Келлер отмечает, что коммерческий потенциал приложений и сервисов, основанных на облачных API LLM, ещё предстоит доказать.
«Бизнес-модель сложная», — сказал он. «Но это выглядит как проблема бизнес-модели или инноваций в ПО, а не как вопрос оборудования».
Сложность бизнес-модели и очевидная конкуренция со стороны компаний-гиперскейлеров в сочетании с вопросами конфиденциальности клиентов и происхождения данных исключают движение в этом направлении, говорит Келлер.«Это интересно, и я желаю им всем всего хорошего, но я бы не хотел вкладывать миллионы долларов в строительство дата-центров для обслуживания вывода, потому что… кто знает, что может произойти», — сказал он. «Есть компании с широкими карманами, выкладывающие миллиарды на разный хостинг, и это лишь десятая часть их фондов. У меня нет таких денег!».
Целевым клиентом для Tenstorrent остаётся компания, покупающая на сумму от $100 тыс. до $100 млн., и подобные компании желают владеть своими системами и иметь открытый доступ к коду ПО, сказал Келлер. Модель «аппаратное обеспечение как услуга» (HaaS) до сих пор не доказала свою успешность, добавил он.
«Разные творческие люди будут придумывать, как сделать ИИ услугой», — сказал Келлер. «Я не общался ни с кем, кто пришёл бы ко мне и сказал: «Джим, надеюсь, ты работаешь над новой потрясающей бизнес-моделью нового типа, которая вытащит побольше денег из моего кармана. Мы хотим просто торговать IP и оборудованием»».
Стандарты чиплетов
В последнее время команда Tenstorrent работает над рядом интересных проектов.
Компания основывает технологию третьего поколения на чиплетах, и проектирование этих чиплетов продолжается. Вместо ожидания утверждённых стандартов чиплетов, Tenstorrent создает их сама.
«Спецификация консорциума UCIe определяет стандарты, но они делают то же, что и в случае с CXL, — определяют слишком много стандартов», — говорит Келлер. «Проблема в том, что, желая сделать счастливыми всех, не сделаешь счастливым никого, и мы продолжаем считать, что во многом это всё ещё презентация, сделанная в PowerPoint. Поэтому мы решили начать строить что-то подобное, но действительно работающее».
Компании непросто было развивать межчиповые интерфейсы (D2D), но результат получился рабочим, сказал Келлер. Tenstorrent модифицировала PHY BoW (интегральную схему «пучок проводов») от Blue Cheetah, тесно сотрудничая с компанией, чтобы получить нечто хорошо работающее и при этом экономичное по площади.
«Мы просто решили построить всё от начала до конца, как будто это мы создаем стандарт чиплетов», — говорит он. «Так что это не совсем стандарт, потому что нам пришлось кое-что изобретать, но зато у нас теперь есть свой стандарт».
Компания «по всей вероятности» опубликует этот пока ещё безымянный стандарт, чтобы положить начало экосистеме совместимых чиплетов на основе собственного предложения, сказал Келлер.
Другой действующий проект сочетает программные стеки BUDA и Metalium от Tenstorren, используя MLIR, промежуточный компилятор формата представления для ИИ. Metalium, который предоставляет низкоуровневый доступ к оборудованию для экспертов, является восходящим стеком, в то время как BUDA представляет собой нисходящий компилятор со своим собственным бэкэндом.
«Когда мы начинали разработку Metalium, вопрос звучал так: должно ли это быть чем-то единым? Полтора года я говорил, что это не имеет значения», — сказал Келлер. «Но теперь Metalium достаточно быстр, его API стал настолько понятным, что команда BUDA сказала: мы считаем, что можем взять наш компилятор и, применив MLIR в качестве транслятора, использовать Metalium как бэкэнд. Мы переименовали его в Forge».
По его словам, развитие Forge было вызвано, в частности, улучшениями диалектов MLIR, той особенностью, которая позволяет добавить гибкости и даёт компиляторам писать улучшенный параллельный низкоуровневый код. Использование довольно хорошо известного MLIR означает, что новым сотрудникам в команде компиляторов не требуется дополнительного обучения, что особенно радует Келлера.
Открытие исходного кода Metalium было успешным планом, добавил Келлер, и, хотя второе поколение Blackhole запустилось с некоторыми ошибками, в настоящее время, похоже, оно уйдёт в производство на кремнии в степпинге A0. Есть обратная связь с разработчиками, которые приобрели карты Grayskull первого поколения, поступают отзывы, а IP-лицензии компании приносят доход.
«Friendly Box», следующая версия рабочей станции Blackhole от Tenstorrent, станет дешевле и в 2–3 раза быстрее версии Wormhole, утверждает Келлера.
«Когда мы её донастроим, она будет хороша... У нас целая куча хитростей, и мы внедрим их туда».