Найти Π² Π”Π·Π΅Π½Π΅

πŸ”“βš‘βš‘ Trinity-Mini: 26B MoE-модСль ΠΎΡ‚ Arcee AI с 128k контСкстом ΠΈ FP8-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ

Arcee AI прСдставили Trinity-Mini β€” ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ MoE (Mixture of Experts β€” модСль Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€ΡƒΠ΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‡Π°ΡΡ‚ΡŒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°) Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Π½Π° 26B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ всСго 3B. МодСль ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° колоссальном датасСтС Π² 10 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π° ΠΏΠΎΠ΄ слоТныС рассуТдСния ΠΈ ΠΊΠΎΠ΄ΠΈΠ½Π³. Главная Ρ„ΠΈΡˆΠΊΠ° этого Ρ€Π΅Π»ΠΈΠ·Π° β€” ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ FP8-ΠΊΠ²Π°Π½Ρ‚ с ΠΏΠΎΠ±Π»ΠΎΡ‡Π½Ρ‹ΠΌ скалированиСм. Π­Ρ‚ΠΎ позволяСт Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ модСль практичСски Π±Π΅Π· ΠΏΠΎΡ‚Π΅Ρ€ΠΈ качСства, Π½ΠΎ с Π”Π•Π‘Π―Π’Π˜ΠšΠ ΠΠ’ΠΠ«Πœ прСимущСством Π² пропускной способности Π½Π° ΠΊΠ°Ρ€Ρ‚Π°Ρ… NVIDIA Hopper (H100/H200). На Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ BFCL V3 (Berkeley Function Calling Leaderboard β€” тСст Π½Π° Ρ€Π°Π±ΠΎΡ‚Ρƒ с инструмСнтами ΠΈ API) Trinity-Mini Π½Π°Π±Ρ€Π°Π»Π° 59.67%, ΡƒΠ²Π΅Ρ€Π΅Π½Π½ΠΎ обойдя ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ΠΎΠ² Π²Ρ€ΠΎΠ΄Π΅ gpt-oss ΠΈ Magistral. АрхитСктура ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 128 экспСртов (8 Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… Π½Π° Ρ‚ΠΎΠΊΠ΅Π½), Ρ‡Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ Π·Π½Π°Π½ΠΈΠΉ ΠΏΡ€ΠΈ Π½ΠΈΠ·ΠΊΠΈΡ… Π·Π°Ρ‚Ρ€Π°Ρ‚Π°Ρ… Π½Π° инфСрСнс. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ контСкстноС ΠΎΠΊΠ½ΠΎ Π² 128k Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈ поставляСтся ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ Apache 2.0, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π΅Ρ‘ ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹ΠΌ ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ‚ΠΎΠΌ для self-hos

πŸ”“βš‘βš‘ Trinity-Mini: 26B MoE-модСль ΠΎΡ‚ Arcee AI с 128k контСкстом ΠΈ FP8-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ

Arcee AI прСдставили Trinity-Mini β€” ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ MoE (Mixture of Experts β€” модСль Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€ΡƒΠ΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‡Π°ΡΡ‚ΡŒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°) Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Π½Π° 26B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ всСго 3B. МодСль ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° колоссальном датасСтС Π² 10 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π° ΠΏΠΎΠ΄ слоТныС рассуТдСния ΠΈ ΠΊΠΎΠ΄ΠΈΠ½Π³.

Главная Ρ„ΠΈΡˆΠΊΠ° этого Ρ€Π΅Π»ΠΈΠ·Π° β€” ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ FP8-ΠΊΠ²Π°Π½Ρ‚ с ΠΏΠΎΠ±Π»ΠΎΡ‡Π½Ρ‹ΠΌ скалированиСм. Π­Ρ‚ΠΎ позволяСт Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ модСль практичСски Π±Π΅Π· ΠΏΠΎΡ‚Π΅Ρ€ΠΈ качСства, Π½ΠΎ с Π”Π•Π‘Π―Π’Π˜ΠšΠ ΠΠ’ΠΠ«Πœ прСимущСством Π² пропускной способности Π½Π° ΠΊΠ°Ρ€Ρ‚Π°Ρ… NVIDIA Hopper (H100/H200). На Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ BFCL V3 (Berkeley Function Calling Leaderboard β€” тСст Π½Π° Ρ€Π°Π±ΠΎΡ‚Ρƒ с инструмСнтами ΠΈ API) Trinity-Mini Π½Π°Π±Ρ€Π°Π»Π° 59.67%, ΡƒΠ²Π΅Ρ€Π΅Π½Π½ΠΎ обойдя ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ΠΎΠ² Π²Ρ€ΠΎΠ΄Π΅ gpt-oss ΠΈ Magistral.

АрхитСктура ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 128 экспСртов (8 Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… Π½Π° Ρ‚ΠΎΠΊΠ΅Π½), Ρ‡Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ Π·Π½Π°Π½ΠΈΠΉ ΠΏΡ€ΠΈ Π½ΠΈΠ·ΠΊΠΈΡ… Π·Π°Ρ‚Ρ€Π°Ρ‚Π°Ρ… Π½Π° инфСрСнс. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ контСкстноС ΠΎΠΊΠ½ΠΎ Π² 128k Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈ поставляСтся ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ Apache 2.0, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π΅Ρ‘ ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹ΠΌ ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ‚ΠΎΠΌ для self-hosted enterprise Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ.

Π—Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ модСль ΠΌΠΎΠΆΠ½ΠΎ Ρ‡Π΅Ρ€Π΅Π· vLLM с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ ускорСния DeepGEMM:

VLLM_USE_DEEP_GEMM=1 vllm serve arcee-ai/Trinity-Mini-FP8-Block --trust-remote-code.

Π­Ρ‚ΠΎ ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ малСнькиС Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ (3B) Π² связкС с ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹ΠΌ объСмом ΠΏΡ€Π΅Ρ‚Ρ€Π΅ΠΉΠ½Π° (10T) Π²Ρ‹Π΄Π°ΡŽΡ‚ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, сопоставимый с тяТСлыми ΠΏΡ€ΠΎΠΏΡ€ΠΈΠ΅Ρ‚Π°Ρ€Π½Ρ‹ΠΌΠΈ модСлями.

#AI #ArceeAI #Trinity #MoE #OpenSource #FP8 #vLLM

πŸ”— arcee-ai/Trinity-Mini-FP8-Block