Компании MemVerge и Micron объединили свои усилия, чтобы создать решение, которое использует интеллектуальную многоуровневую память CXL для повышения производительности больших языковых моделей (LLM) путем перегрузки данных из памяти GPU HBM в память CXL. Демонстрация этого революционного решения проходила на выставке GTC.
Узкое место, связанное с ограниченной емкостью памяти HBM, ограничивает масштабирование производительности LLM. Поэтому использование многоуровневой памяти CXL позволяет не только повысить производительность, но и эффективно использовать ресурсы GPU.В демонстрации были использованы генератор FlexGen и модель LLM OPT-66B, работающие на сервере Supermicro Petascale Server с процессором AMD Genoa и графическим процессором Nvidia A10. Использовались также модули памяти Micron DDR5-4800 DIMM и CZ120 CXL, а обработкой данных занималось интеллектуальное ПО MemVerge Memory Machine X.Результаты демонстрации были впечатляющими: генератор FlexGen выполнил задачи почти в два раза быстрее, чем с использованием традиционных методов хранения данных NVMe, а загрузка GPU увеличилась с 51,8% до 91,8%. Для этого было использовано прозрачное управление распределением данных между модулями DIMM и CXL, которое обеспечивается программным обеспечением MemVerge Memory Machine X.Это сотрудничество MemVerge, Micron и Supermicro представляет собой значительный прорыв в развитии возможностей рабочих нагрузок искусственного интеллекта. Оно позволяет организациям достичь высокой производительности, эффективности и скорости работы, используя память CXL и интеллектуальную многоуровневую обработку данных. Это открывает новые перспективы для инноваций и помогает компаниям ускорить свой путь к успеху на основе искусственного интеллекта.Сотрудничество с MemVerge позволило компании Micron продемонстрировать преимущества модулей памяти CXL для повышения пропускной способности GPU в приложениях искусственного интеллекта. Это позволяет сократить время получения информации для клиентов. Инновации компании Micron в области памяти обеспечивают необходимый объем памяти и пропускную способность для масштабирования приложений ИИ.