Найти тему
ServerNews

NVIDIA анонсировала восьмое поколение ПО TensorRT

Современные диалоговые комплексы часто строятся на глубоком машинном обучении. Обучение такого рода систем требует существенных вычислительных ресурсов, а главное — эффективного программного обеспечения. Восьмое поколение TensorRT должно ещё больше ускорить и облегчить процесс разработки. Компания активно продвигает свои решения в мире инференс-систем и за последние несколько месяцев объявила о существенном увеличении контрактов на построение «умных» рекомендательных систем.

Количество голосовых помощников год от года увеличивается ударными темпами, но от них также требуется и качество — вряд ли кому-то понравится бот или сервис рекомендаций, не способный справляться со своими обязанностями. Разработки NVIDIA, от компактных плат Jetson до сверхмощных ускорителей A100, позволяют создавать действительно мощные инференс-системы для такого рода задач, но без сопутствующих средств разработки они бесполезны.

Уже предыдущее, седьмое поколение инференс-платформы TensorRT, позволило достичь десятикратного ускорения в диалоговых приложениях по сравнению с их запуском на классических процессорах. В новой, анонсированной только что восьмой версии, NVIDIA продолжила дальнейшую оптимизацию TensorRT.

NVIDIA TensorRT подразумевает высокую степень интеграции
NVIDIA TensorRT подразумевает высокую степень интеграции

Изменения в новом пакете присутствуют как количественные — производительность выросла вдвое в сравнении с TensorRT 7, — так и качественные — появилась поддержка особенностей архитектуры Ampere и новой технологии Quantization Aware Training (QAT). Помимо чистой производительности также снизилась латентность, теперь минимальное её значение составляет всего 1,2 мс.

Новая версия TensorRT позволит сделать машинный интеллект ещё умнее
Новая версия TensorRT позволит сделать машинный интеллект ещё умнее

Из качественных нововведений первым пунктом следует отметить оптимизацию для работы в режиме Sparsity, в котором редуцируются незначащие параметры, практически не влияющие на результат. TensorRT 8 позволяет не затрачивать существенные ресурсы в таких случаях, экономя как вычислительные такты, так и сохраняя память для более важных данных. Технология QAT же позволяет существенно поднять точность вычислений в режиме INT8 на ускорителях NVIDIA с архитектурой Ampere.