Китайский производитель графических процессоров Moore Threads анонсировал свой новейший графический ускоритель MTT S4000 для вычислительных задач искусственного интеллекта и центров обработки данных. Новый флагман компании будет представлен в Центре интеллектуальных вычислений KUAE, центре обработки данных, содержащем кластеры по 1000 графических процессоров S4000 каждый. Moore Threads также сотрудничает со многими другими китайскими компаниями, включая Lenovo, чтобы запустить свою аппаратную и программную экосистему KUAE.
Хотя Moore Threads не раскрыла все характеристики графического процессора S4000, это, безусловно, значительное улучшение по сравнению с предыдущими моделями S2000 и S3000. По сравнению с S2000, S4000 имеет вдвое большую производительность FP32, в пять раз большую производительность INT8, на 50% больше видеопамяти и, предположительно, намного большую пропускную способность памяти. В новом флагмане также используется архитектура MUSA (унифицированная системная архитектура Moore Threads) второго поколения, тогда как в S2000/S3000 использовалась архитектура первого поколения.
По сравнению с моделями Nvidia ускоритель S4000 лучше серверных графических процессоров Tesla на базе архитектуры Turing 2018 года, но все же уступает Ampere и Ada Lovelace, выпущенным в 2020 и 2022 годах соответственно. S4000 не хватает мощности, но у него довольно много памяти и пропускной способности, что может пригодиться для рабочих нагрузок искусственного интеллекта и больших языковых моделей (LLM), для которых, как предполагает Moore Threads, будет использоваться его флагман.
S4000 также имеет важные возможности передачи данных между графическими процессорами: канал передачи данных со скоростью 240 ГБ/с от одной карты к другой и поддержку RDMA. Конечно это далеко от пропускной способности NVLink в 900 ГБ/с на Hopper, но S4000 является гораздо более слабым графическим процессором, что делает такую большую пропускную способность излишней.
Помимо S4000, Moore Threads также представила свой интеллектуальный вычислительный центр KUAE. Компания описывает его как «полноценное решение, объединяющее программное и аппаратное обеспечение» с полнофункциональным графическим процессором S4000 в качестве центрального элемента. В кластерах KUAE используются графические серверы MCCX D800, каждый из которых имеет по восемь карт S4000. Moore Threads сообщает, что каждый кластер KUAE Kilocard имеет 1000 графических процессоров, что означает в общей сложности 125 серверов MCCX D800 на кластер.
Что касается программного обеспечения, то Moore Threads утверждает, что KUAE поддерживает основные модели больших языков, такие как GPT, и такие платформы, как DeepSpeed. Инструмент компании MUSIFY позволяет S4000 работать с программной экосистемой CUDA на базе графических процессоров Nvidia, что избавляет Moore Threads и китайскую индустрию программного обеспечения от необходимости изобретать велосипед.
Кластер KUAE может обучить модель ИИ примерно за месяц, хотя это во многом зависит от конкретных параметров. Например, Moore Threads утверждает, что для обучения модели Aquila2 с 70 миллиардами параметров требуется 33 дня, но увеличение параметров до 130 миллиардов увеличит время обучения до 56 дней.
Поддержка такой экосистемы аппаратного и программного обеспечения будет сложной задачей для любой компании. Вероятно, именно поэтому компания создала Экологический альянс интеллектуальных вычислений и больших моделей — партнерство между Moore Threads и несколькими другими китайскими компаниями. Китайский производитель графических процессоров, в первую очередь, получил поддержку от Lenovo, которая также имеет большое присутствие на международном уровне.
Хотя Moore Threads не претендует в ближайшее время на конкуренцию с такими компаниями, как Nvidia, AMD или Intel, для Китая это большой шаг. Санкции США исключили экспорт мощных графических процессоров в Китай, что не только дало китайской полупроводниковой промышленности хороший толчок для развития, но и ослабило конкуренцию для таких компаний, как Moore Threads.