🚀 Если вы работаете с большими языковыми моделями, вам знакома проблема: один GPU справляется не всегда. NVIDIA Dynamo – это фреймворк для высокопроизводительного и масштабируемого инференса, который умеет распределять нагрузки между несколькими GPU и узлами. Особенно круто, что Dynamo не привязан к одному движку – поддерживает vLLM, SGLang, TensorRT-LLM. Есть умные вещи вроде динамического планировщика задач, оптимального маршрута запросов и оффлоуда кешей, который значительно ускоряют обработку. Проект написан на Rust и Python, открыт и готов к вашим вкладам. Поддерживает локальный запуск и масштабирование в Kubernetes. Отличный выбор, если хотите вывести обслуживание генеративных моделей на новый уровень! #AI #ML #NVIDIA #Rust #Python #LLM #DeepLearning #OpenSource https://github.com/ai-dynamo/dynamo https://vlad1kudelko.github.io/