Классический подход к параллельному обучению LLM — разделять tensor parallelism и sequence parallelism по разным осям, но Zyphra показала альтернативу: метод TSP “сворачивает” оба вида параллелизма в одну линию GPU. Tensor parallelism режет веса по устройствам, а sequence parallelism режет токены; в привычной схеме это удобно на 2D-сетке. В TSP каждый GPU хранит и шард весов, и шард последовательности, из-за чего падает и память на параметры, и память на активации вдоль одной топологии. Авторы называют это компромиссом communication-for-memory: коммуникации больше, зато меньше локальная память, что особенно критично для длинного контекста. Главный результат из сравнения с базовым TP+SP на том же железе — 2,6× throughput. При этом метод позиционируется как hardware-aware: на коротких последовательностях и при высокой сетевой пропускной способности преимущество может сойти на нет. #release #TSP #Zyphra #MoE #vLLM #transformer #inference 🔗 Zyphra Introduces Tensor and Sequence Paral
🚀 Zyphra предложила TSP: сворачивает tensor и sequence parallelism и даёт 2,6× throughput для длинных контекстов
5 мая5 мая
1 мин