103 читали · 2 года назад
NVIDIA TensorRT-LLM ускоряет работу с большими языковыми моделями до 8 раз
NVIDIA TensorRT-LLM анонсируется, как высокооптимизированная библиотека с открытым исходным кодом, которая обеспечивает самую быструю производительность вывода среди всех больших языковых моделей, использующих графические процессоры NVIDIA AI, такими как Hopper. NVIDIA работала со всеми LLM-специалистами в сообществе открытого исходного кода над оптимизацией своих графических процессоров, используя новейшие ядра искусственного интеллекта с передовыми технологиями, такими как SmoothQuant, FlashAttention и fMHA...