В ноябре прошлого года компания Nvidia произвела в технологическом мире настоящий фурор, внезапно оказавшись на 9-м месте в списке Топ-500 самых быстрых суперкомпьютеров мира со своей системой под названием Eos. Новый суперкомпьютер получил свое название в честь греческой богини, которая каждый день открывала врата рассвета. Генеральный директор Nvidia Дженсен Хуанг заявил, что Eos представляет собой систему корпоративного масштаба для обучения искусственного интеллекта, которую компания недавно продемонстрировала всему миру в своем новом видеоролике.
По сути, Eos — это собственный суперкомпьютер Nvidia, которым сотрудники компании могут пользоваться ежедневно для обучения искусственного интеллекта, а также для развлечений, например, играть в Crysis в перерывах на обед. Он представляет собой огромный кластер из 576 серверов DGX H100, а поскольку каждый из них оснащен восемью графическими ИИ-ускорителями H100, то в общей сложности насчитывается 4608 серверов H100, связанных между собой технологией Quantum-2 InfiniBand. Другими словами, это своего рода демонстрация возможностей своей новой разработки DGX SuperPod, которая предназначена для обучения искусственного интеллекта и должна заинтересовать крупные компании, которым нужно обучать большие модели искусственного интеллекта.
Nvidia позиционирует Eos как систему, которая может обеспечить работу «целой фабрики искусственного интеллекта», поскольку это действительно крупномасштабная система SuperPod DGX H100. Компания заявила, что именно она позволила ей разрабатывать собственные революционные проекты в области искусственного интеллекта и демонстрировать мощь новейших технологий Nvidia при масштабировании до невероятных размеров.
В новых серверах DGX H100 используются процессоры Intel Xeon Platinum 8480C, которые имеют 56 ядер и 112 потоков. В сочетании с 4608 графическими процессорами H100 они обеспечивают производительность 121 петафлопс по тесту Linpack, чего оказалось достаточно только для 9-го места в рейтинге Tоп-500, но это все равно достаточно хороший показатель. Если рассматривать этот суперкомпьютер исключительно для обучения искусственного интеллекта, то это один из самых быстрых компьютеров в мире на данный момент.
Когда эта высокопроизводительная система дебютировала в прошлом году, Nvidia продемонстрировала значительное улучшение характеристик по сравнению со своей предыдущей системой A100 на базе Ampere. Например, в одном тесте, предназначенном для имитации обучения модели GPT-3, Eos потребовалось всего четыре минуты по сравнению с 11 минутами в системе на базе A100. Однако предыдущая система использовала всего 512 графических процессоров, а Eos намного больше в размерах и использует гораздо более мощные графические процессоры, так что значительный прирост был вполне ожидаем.
Однако при изучении последнего заявления Nvidia мы заметили одно несоответствие. В ноябре 2023 года Nvidia заявила, что Eos будет оснащен 10 752 графическими процессорами H100, но последнем объявлении это число было сокращено до 4608. В связи с чем это связано, компания не сообщила, и был ли Eos реально уменьшен в 2 раза неизвестно.
Энтузиасты отправили электронное письмо Nvidia с просьбой дать разъяснения, и представитель компании ответил: «Для ясности: суперкомпьютер, использованный для обучения большой языковой модели MLPerf имел 10 752 графических процессоров H100, то есть это другая система, построенная на той же архитектуре DGX SuperPOD. А вот система, занявшая 9-е место в рейтинге Топ-500 2023 года - это система Eos с 4608 ИИ-ускорителями, представленная в нашем блоге и новом видеоролике».
Когда они спросили, почему обе системы называются Eos, представитель ответил: «У нас установлено несколько систем поколения Eos, но все они основаны на одной и той же архитектуре NVIDIA DGX SuperPOD».