vLLM v0.17.0 β ΡΡΠΎ ΠΊΡΡΠΏΠ½ΠΎΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ ΡΠ°ΠΌΠΎΠ³ΠΎ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΠΎΠ³ΠΎ Π΄Π²ΠΈΠΆΠΊΠ° Π΄Π»Ρ Π²ΡΡΠΎΠΊΠΎΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ° (ΠΏΡΠΎΡΠ΅ΡΡΠ° Π·Π°ΠΏΡΡΠΊΠ° Π³ΠΎΡΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ). ΠΠ»Π°Π²Π½ΡΠΉ ΠΏΡΠΎΡΡΠ² ΡΠ΅Π»ΠΈΠ·Π° β ΠΎΡΠΈΡΠΈΠ°Π»ΡΠ½Π°Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° Google TPU v6e, ΡΡΠΎ Π΄Π΅Π»Π°Π΅Ρ ΡΡΠ΅ΠΊ vLLM Π΅ΡΠ΅ Π±ΠΎΠ»Π΅Π΅ ΡΠ½ΠΈΠ²Π΅ΡΡΠ°Π»ΡΠ½ΡΠΌ Π·Π° ΠΏΡΠ΅Π΄Π΅Π»Π°ΠΌΠΈ ΡΠΊΠΎΡΠΈΡΡΠ΅ΠΌΡ NVIDIA. Π Π°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΈ Π²Π½Π΅Π΄ΡΠΈΠ»ΠΈ Chunked Prefill (ΠΌΠ΅ΡΠΎΠ΄ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΏΡΠΎΠΌΠΏΡΠΎΠ² ΠΏΠΎ ΡΠ°ΡΡΡΠΌ), ΠΊΠΎΡΠΎΡΡΠΉ ΡΠ°Π΄ΠΈΠΊΠ°Π»ΡΠ½ΠΎ ΡΠ½ΠΈΠΆΠ°Π΅Ρ Π·Π°Π΄Π΅ΡΠΆΠΊΠΈ ΠΈ ΠΏΡΠ΅Π΄ΠΎΡΠ²ΡΠ°ΡΠ°Π΅Ρ Β«Π·Π°ΠΈΠΊΠ°Π½ΠΈΠ΅Β» Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΏΡΠΈ ΠΎΠ΄Π½ΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ Π½ΠΎΠ²ΡΡ
Π·Π°ΠΏΡΠΎΡΠΎΠ². ΠΡΠΎ ΠΊΡΠΈΡΠΈΡΠ½ΠΎ Π΄Π»Ρ RAG-ΡΠΈΡΡΠ΅ΠΌ, Π³Π΄Π΅ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ ΡΠ°ΡΡΠΎ ΠΏΡΠ΅Π²ΡΡΠ°Π΅Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΡΡΡΡ ΡΠΎΠΊΠ΅Π½ΠΎΠ². ΠΠ»Ρ ΡΠ΅Ρ
, ΠΊΡΠΎ Π±ΠΎΡΠ΅ΡΡΡ Π·Π° ΠΊΠ°ΠΆΠ΄ΡΠΉ Π³ΠΈΠ³Π°Π±Π°ΠΉΡ Π²ΠΈΠ΄Π΅ΠΎΠΏΠ°ΠΌΡΡΠΈ, Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° FP8 ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ Π΄Π»Ρ Π±ΠΎΠ»ΡΡΠ΅Π³ΠΎ ΡΠΈΡΠ»Π° Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡ. Π’Π΅ΠΏΠ΅ΡΡ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡΡΠΊΠ°ΡΡ ΡΡΠΆΠ΅Π»ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²ΡΠΎΠ΄Π΅ Llama 3 70B Π½Π° ΠΌΠ΅Π½ΡΡΠ΅ΠΌ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π΅ GPU Π±Π΅Π· ΠΎΡΡΡΠΈΠΌΠΎΠΉ ΠΏΠΎΡΠ΅ΡΠΈ ΡΠΎΡΠ½ΠΎΡΡΠΈ. ΠΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ ΡΠ°ΠΊΠΆΠ΅ Π²ΠΊΠ»ΡΡΠ°Π΅Ρ ΡΠ»ΡΡΡΠ΅Π½Π½ΡΡ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΡ Multi-LoRA (Low-Rank Adaptation β Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½Π½ΡΠ΅ ΡΠ»ΠΎΠΈ), ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎ ΠΎΠ±ΡΠ»ΡΠΆΠΈΠ²Π°ΡΡ ΡΠΎΡΠ½ΠΈ ΠΊΠ°ΡΡΠΎΠΌΠ½ΡΡ
Π°Π΄Π°ΠΏΡΠ΅ΡΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ ΠΈΠ½ΡΡΠ°Π½ΡΠ΅. ΠΠ±Π½ΠΎΠ²ΠΈΡΡΡΡ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠΎΠΌΠ°Π½
π π vLLM v0.17.0: Π½ΠΎΠ²ΡΠΉ ΡΡΠ°Π½Π΄Π°ΡΡ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ° Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΎΠΉ Google TPU ΠΈ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠ΅ΠΉ ΠΏΠ°ΠΌΡΡΠΈ
9Β ΠΌΠ°ΡΡΠ°9Β ΠΌΠ°Ρ
1 ΠΌΠΈΠ½