Компания NVIDIA сделала заявление о своем новом программном решении - TensorRT-LLM, которое создано специально для ускорения больших языковых моделей (LLM). Ожидается, что продукт будет доступен в ближайшие недели.
TensorRT-LLM - это ответ NVIDIA на растущий интерес к LLM, особенно у таких крупных игроков, как Meta, Grammarly и др. Но из-за их объема и сложности эффективная реализация и использование таких моделей становится сложной задачей. Сюда и вступает новая библиотека NVIDIA, предлагая решение этой проблемы.
Платформа включает в себя множество инструментов, оптимизированных под ускорители NVIDIA. Особенно выделяется возможность для разработчиков работать с новыми LLM без глубоких знаний технических деталей благодаря модульному API на Python.
По словам NVIDIA, TensorRT-LLM в два раза ускоряет производительность моделей, таких как GPT-J 6B. А для некоторых моделей, таких как Llama2, увеличение производительности достигает до 4,6 раз в сравнении с предыдущими версиями.
Особое внимание заслуживает тензорный параллелизм, используемый в TensorRT-LLM. Эта функция позволяет распределять нагрузку между несколькими устройствами, что делает масштабирование задачи намного проще и эффективнее.
Для максимальной эффективности новое ПО также использует Transformer Engine на H100, позволяя ускорить вычисления и уменьшить потребление памяти, не жертвуя при этом качеством.
Таким образом, с TensorRT-LLM от NVIDIA разработчики и компании получат мощный инструмент в руки для работы и ускорения больших языковых моделей, обещая новые возможности в области искусственного интеллекта.