Найти тему
ServerNews

NVIDIA NeMo Megatron поможет в обучении сверхбольших языковых моделей в инфраструктуре NVIDIA DGX SuperPOD

NVIDIA представила фреймворк NeMo Megatron, оптимизированный для обучения сверхбольших языковых моделей в инфраструктуре DGX SuperPOD. Такое сочетание готового к работе оборудования и ПО призвано помочь организациям в различных отраслях преодолеть проблемы, связанные с обучением сложных NLP-моделей для обработки естественного языка.

С помощью NVIDIA NeMo Megatron можно эффективно обучать массивные языковые и речевые модели с триллионами параметров, что позволит разрабатывать чат-ботов для конкретных языков и отраслей, персональных помощников, а также создавать и обобщать контент с использованием моделей, которые понимают более широкий диапазон значений и более обширный контекст.

«Большие языковые модели предоставили современному ИИ новые возможности для понимания, запоминания и синтеза идей, — отметил Брайан Катандзаро (Bryan Catanzaro), вице-президент по прикладным исследованиям глубокого обучения в NVIDIA. — Поскольку языковые модели увеличиваются, предприятиям требуется безопасная инфраструктура и масштабируемое ПО для выполнения рабочих нагрузок NLP».

NVIDIA
NVIDIA

В числе первых, кто начал создавать сложные языковые модели с помощью NVIDIA DGX SuperPOD есть SiDi, JD Explore Academy и VinBrain. SiDi, один из крупнейших бразильских институтов исследований и разработок в области ИИ, адаптировал виртуального помощника Samsung для бразильского варианта португальского языка, на котором говорят около 200 млн жителей страны.

JD Explore Academy, отдел исследований и разработок JD.com, использует NLP для обслуживания клиентов, розничной торговли, логистики, Интернета вещей и здравоохранения. А вьетнамская компания VinBrain, специализирующаяся в области ИИ в сфере здравоохранения, разработала и внедрила клиническую модель для радиологов и телемедицины в 100 больницах, где её используют более 600 практикующих врачей.

NVIDIA NeMo Megatron не только автоматизирует обучение с помощью инструментов, которые собирают, обрабатывают, систематизируют и очищают данные, но и позволяет распределять большие языковые модели по тысячам графических процессоров. NeMo Megatron оптимизирован для систем DGX SuperPOD, которые имеют 20 и более узлов NVIDIA DGX A100, объединённых интерконнектом InfiniBand. Такие системы идеально подходят для работы с массивными NLP-нагрузками, такими как Megatron-Turing, NLG 530B и GPT-3.