Найти Π² Π”Π·Π΅Π½Π΅

🏎 πŸš€ vLLM v0.17.0: Π½ΠΎΠ²Ρ‹ΠΉ стандарт инфСрСнса с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ Google TPU ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ памяти

vLLM v0.17.0 β€” это ΠΊΡ€ΡƒΠΏΠ½ΠΎΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ самого популярного Π΄Π²ΠΈΠΆΠΊΠ° для Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ инфСрСнса (процСсса запуска Π³ΠΎΡ‚ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ). Π“Π»Π°Π²Π½Ρ‹ΠΉ ΠΏΡ€ΠΎΡ€Ρ‹Π² Ρ€Π΅Π»ΠΈΠ·Π° β€” ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½Π°Ρ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Google TPU v6e, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ стСк vLLM Π΅Ρ‰Π΅ Π±ΠΎΠ»Π΅Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΌ Π·Π° ΠΏΡ€Π΅Π΄Π΅Π»Π°ΠΌΠΈ экосистСмы NVIDIA. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Π²Π½Π΅Π΄Ρ€ΠΈΠ»ΠΈ Chunked Prefill (ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠΌΠΏΡ‚ΠΎΠ² ΠΏΠΎ частям), ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ€Π°Π΄ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎ сниТаСт Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΈ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ Β«Π·Π°ΠΈΠΊΠ°Π½ΠΈΠ΅Β» Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π½ΠΎΠ²Ρ‹Ρ… запросов. Π­Ρ‚ΠΎ ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½ΠΎ для RAG-систСм, Π³Π΄Π΅ контСкст часто ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ нСсколько тысяч Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Для Ρ‚Π΅Ρ…, ΠΊΡ‚ΠΎ борСтся Π·Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Π³ΠΈΠ³Π°Π±Π°ΠΉΡ‚ видСопамяти, Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° FP8 квантования для большСго числа Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ тяТСлыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Ρ€ΠΎΠ΄Π΅ Llama 3 70B Π½Π° мСньшСм количСствС GPU Π±Π΅Π· ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ точности. ОбновлСниС Ρ‚Π°ΠΊΠΆΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½Π½ΡƒΡŽ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΡƒ Multi-LoRA (Low-Rank Adaptation β€” Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ слои), позволяя эффСктивно ΠΎΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Ρ‚ΡŒ сотни кастомных Π°Π΄Π°ΠΏΡ‚Π΅Ρ€ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ инстансС. ΠžΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒΡΡ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠΎΠΌΠ°Π½

🏎 πŸš€ vLLM v0.17.0: Π½ΠΎΠ²Ρ‹ΠΉ стандарт инфСрСнса с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ Google TPU ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ памяти

vLLM v0.17.0 β€” это ΠΊΡ€ΡƒΠΏΠ½ΠΎΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ самого популярного Π΄Π²ΠΈΠΆΠΊΠ° для Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ инфСрСнса (процСсса запуска Π³ΠΎΡ‚ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ). Π“Π»Π°Π²Π½Ρ‹ΠΉ ΠΏΡ€ΠΎΡ€Ρ‹Π² Ρ€Π΅Π»ΠΈΠ·Π° β€” ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½Π°Ρ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Google TPU v6e, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ стСк vLLM Π΅Ρ‰Π΅ Π±ΠΎΠ»Π΅Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΌ Π·Π° ΠΏΡ€Π΅Π΄Π΅Π»Π°ΠΌΠΈ экосистСмы NVIDIA.

Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Π²Π½Π΅Π΄Ρ€ΠΈΠ»ΠΈ Chunked Prefill (ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠΌΠΏΡ‚ΠΎΠ² ΠΏΠΎ частям), ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ€Π°Π΄ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎ сниТаСт Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΈ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ Β«Π·Π°ΠΈΠΊΠ°Π½ΠΈΠ΅Β» Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π½ΠΎΠ²Ρ‹Ρ… запросов. Π­Ρ‚ΠΎ ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½ΠΎ для RAG-систСм, Π³Π΄Π΅ контСкст часто ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ нСсколько тысяч Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Для Ρ‚Π΅Ρ…, ΠΊΡ‚ΠΎ борСтся Π·Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Π³ΠΈΠ³Π°Π±Π°ΠΉΡ‚ видСопамяти, Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° FP8 квантования для большСго числа Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ тяТСлыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Ρ€ΠΎΠ΄Π΅ Llama 3 70B Π½Π° мСньшСм количСствС GPU Π±Π΅Π· ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ точности. ОбновлСниС Ρ‚Π°ΠΊΠΆΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½Π½ΡƒΡŽ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΡƒ Multi-LoRA (Low-Rank Adaptation β€” Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ слои), позволяя эффСктивно ΠΎΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Ρ‚ΡŒ сотни кастомных Π°Π΄Π°ΠΏΡ‚Π΅Ρ€ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ инстансС.

ΠžΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒΡΡ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠΎΠΌΠ°Π½Π΄ΠΎΠΉ: pip install vllm --upgrade. Π”Π²ΠΈΠΆΠΎΠΊ остаСтся OpenAI-совмСстимым, поэтому Π·Π°ΠΌΠ΅Π½Π° бэкСнда Π² ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… прилоТСниях ΠΏΡ€ΠΎΠΉΠ΄Π΅Ρ‚ бСсшовно.

#AI #vLLM #Inference #OpenSource

πŸ”— vllm v0.17.0