NVIDIA TensorRT-LLM анонсируется, как высокооптимизированная библиотека с открытым исходным кодом, которая обеспечивает самую быструю производительность вывода среди всех больших языковых моделей, использующих графические процессоры NVIDIA AI, такими как Hopper. NVIDIA работала со всеми LLM-специалистами в сообществе открытого исходного кода над оптимизацией своих графических процессоров, используя новейшие ядра искусственного интеллекта с передовыми технологиями, такими как SmoothQuant, FlashAttention и fMHA. Фонд с открытым исходным кодом включает в себя готовые к использованию версии LLM, оптимизированные для вывода SOTA, такие как GPT-3 (175B), Llama Falcom (180B) и Bloom, и это лишь некоторые из них. TensorRT-LLM также оптимизирован для автоматического распараллеливания нескольких серверов NVLINK с соединением Infiniband. Раньше серверам приходилось вручную назначать большую языковую модель для нескольких серверов/графических процессоров, чего больше не должно быть в случае с Tens
NVIDIA TensorRT-LLM ускоряет работу с большими языковыми моделями до 8 раз
12 сентября 202312 сен 2023
48
2 мин