1 подписчик

🚀 Zyphra предложила TSP: сворачивает tensor и sequence parallelism и даёт 2,6× throughput для длинных контекстов

5 мая5 мая

1 мин

Классический подход к параллельному обучению LLM — разделять tensor parallelism и sequence parallelism по разным осям, но Zyphra показала альтернативу: метод TSP “сворачивает” оба вида параллелизма в одну линию GPU. Tensor parallelism режет веса по устройствам, а sequence parallelism режет токены; в привычной схеме это удобно на 2D-сетке. В TSP каждый GPU хранит и шард весов, и шард последовательности, из-за чего падает и память на параметры, и память на активации вдоль одной топологии. Авторы называют это компромиссом communication-for-memory: коммуникации больше, зато меньше локальная память, что особенно критично для длинного контекста. Главный результат из сравнения с базовым TP+SP на том же железе — 2,6× throughput. При этом метод позиционируется как hardware-aware: на коротких последовательностях и при высокой сетевой пропускной способности преимущество может сойти на нет. #release #TSP #Zyphra #MoE #vLLM #transformer #inference 🔗 Zyphra Introduces Tensor and Sequence Paral

Tensor parallelism режет веса по устройствам, а sequence parallelism режет токены; в привычной схеме это удобно на 2D-сетке. В TSP каждый GPU хранит и шард весов, и шард последовательности, из-за чего падает и память на параметры, и память на активации вдоль одной топологии.

Авторы называют это компромиссом communication-for-memory: коммуникации больше, зато меньше локальная память, что особенно критично для длинного контекста.

Главный результат из сравнения с базовым TP+SP на том же железе — 2,6× throughput. При этом метод позиционируется как hardware-aware: на коротких последовательностях и при высокой сетевой пропускной способности преимущество может сойти на нет.

#release #TSP #Zyphra #MoE #vLLM #transformer #inference

🔗 Zyphra Introduces Tensor and Sequence Parallelism (TSP): A Hardware-Aware Training and Inference Strategy That Delivers 2.6x Throughput Over Matched TP+SP Baselines