43 подписчика

NVIDIA Dynamo – новый уровень в работе с LLM

2 дня назад2 дня назад

~1 мин

🚀 Если вы работаете с большими языковыми моделями, вам знакома проблема: один GPU справляется не всегда. NVIDIA Dynamo – это фреймворк для высокопроизводительного и масштабируемого инференса, который умеет распределять нагрузки между несколькими GPU и узлами. Особенно круто, что Dynamo не привязан к одному движку – поддерживает vLLM, SGLang, TensorRT-LLM. Есть умные вещи вроде динамического планировщика задач, оптимального маршрута запросов и оффлоуда кешей, который значительно ускоряют обработку. Проект написан на Rust и Python, открыт и готов к вашим вкладам. Поддерживает локальный запуск и масштабирование в Kubernetes. Отличный выбор, если хотите вывести обслуживание генеративных моделей на новый уровень! #AI #ML #NVIDIA #Rust #Python #LLM #DeepLearning #OpenSource https://github.com/ai-dynamo/dynamo https://vlad1kudelko.github.io/

NVIDIA Dynamo – новый уровень в работе с LLM 🚀

Если вы работаете с большими языковыми моделями, вам знакома проблема: один GPU справляется не всегда. NVIDIA Dynamo – это фреймворк для высокопроизводительного и масштабируемого инференса, который умеет распределять нагрузки между несколькими GPU и узлами.

Особенно круто, что Dynamo не привязан к одному движку – поддерживает vLLM, SGLang, TensorRT-LLM. Есть умные вещи вроде динамического планировщика задач, оптимального маршрута запросов и оффлоуда кешей, который значительно ускоряют обработку.

Проект написан на Rust и Python, открыт и готов к вашим вкладам. Поддерживает локальный запуск и масштабирование в Kubernetes.

Отличный выбор, если хотите вывести обслуживание генеративных моделей на новый уровень!

#AI #ML #NVIDIA #Rust #Python #LLM #DeepLearning #OpenSource

https://github.com/ai-dynamo/dynamo

https://vlad1kudelko.github.io/