Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π² ΠΊΠΎΡ€Π·ΠΈΠ½ΡƒΠŸΠΎΠ·Π²ΠΎΠ½ΠΈΡ‚ΡŒ
Найти Π² Π”Π·Π΅Π½Π΅
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

🌟 Π€Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ **CUDA-L1** сам научился ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ΄ для GPU β€” ΠΈ добился Π² срСднСм **3.12Γ— ускорСния Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ**, Π° Π² ΠΏΠΈΠΊΠ΅ β€” **Π΄ΠΎ

🌟 Π€Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ **CUDA-L1** сам научился ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ΄ для GPU β€” ΠΈ добился Π² срСднСм **3.12Γ— ускорСния Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ**, Π° Π² ΠΏΠΈΠΊΠ΅ β€” **Π΄ΠΎ 120Γ—**. . ΠŸΠΎΠΏΡ€ΠΎΡΠΈΡ‚Π΅ Π»ΡŽΠ±ΡƒΡŽ LLM Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ CUDA-ΠΊΠΎΠ΄, ΠΈ скорСС всСго, Π²Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚Π΅ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π»ΠΈΠ±ΠΎ Π½Π΅ компилируСтся, Π»ΠΈΠ±ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΌΡƒΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎ. ΠŸΡ€ΠΈΡ‡ΠΈΠ½Π° проста: качСствСнного CUDA-ΠΊΠΎΠ΄Π° Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅ Π±Ρ‹Π»ΠΎ. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΡΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ это досадноС ΡƒΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅, Deep Reinforce AI создали систСму CUDA-L1, которая основана Π½Π° трСхэтапном ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π΅: сначала supervised-ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ для освоСния основ, Π·Π°Ρ‚Π΅ΠΌ self-supervised для ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ ΠΈ, Π½Π°ΠΊΠΎΠ½Π΅Ρ†, контрастноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π±Ρ‹Π»ΠΎ всС максимально быстро. 🟒На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС систСма ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ ΠΏΠΈΡΠ°Ρ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹ΠΉ ΠΈ ΠΊΠΎΠΌΠΏΠΈΠ»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΉ CUDA-ΠΊΠΎΠ΄. Для этого ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ ΠΊΠΎΠ΄ Π±Ρ‹Π» Π°ΡƒΠ³ΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½ - создавались Π΅Π³ΠΎ Π²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ Π½Π°ΡΠΌΠΎΡ‚Ρ€Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ. 🟒На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС модСль Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Π»Π° собствСнный CUDA-ΠΊΠΎΠ΄, тСстировала Π΅Π³ΠΎ ΠΈ ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ Π½Π° Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°Ρ…, отсСивая Π½Π΅ΡƒΠ΄Π°Ρ‡Π½Ρ‹Π΅. 🟒БамоС интСрСс

🌟 Π€Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ **CUDA-L1** сам научился ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ΄ для GPU β€” ΠΈ добился Π² срСднСм **3.12Γ— ускорСния Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ**, Π° Π² ΠΏΠΈΠΊΠ΅ β€” **Π΄ΠΎ 120Γ—**. .

ΠŸΠΎΠΏΡ€ΠΎΡΠΈΡ‚Π΅ Π»ΡŽΠ±ΡƒΡŽ LLM Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ CUDA-ΠΊΠΎΠ΄, ΠΈ скорСС всСго, Π²Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚Π΅ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π»ΠΈΠ±ΠΎ Π½Π΅ компилируСтся, Π»ΠΈΠ±ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΌΡƒΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎ. ΠŸΡ€ΠΈΡ‡ΠΈΠ½Π° проста: качСствСнного CUDA-ΠΊΠΎΠ΄Π° Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅ Π±Ρ‹Π»ΠΎ.

Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΡΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ это досадноС ΡƒΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅, Deep Reinforce AI создали систСму CUDA-L1, которая основана Π½Π° трСхэтапном ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π΅: сначала supervised-ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ для освоСния основ, Π·Π°Ρ‚Π΅ΠΌ self-supervised для ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ ΠΈ, Π½Π°ΠΊΠΎΠ½Π΅Ρ†, контрастноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π±Ρ‹Π»ΠΎ всС максимально быстро.

🟒На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС систСма ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ ΠΏΠΈΡΠ°Ρ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹ΠΉ ΠΈ ΠΊΠΎΠΌΠΏΠΈΠ»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΉ CUDA-ΠΊΠΎΠ΄.

Для этого ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ ΠΊΠΎΠ΄ Π±Ρ‹Π» Π°ΡƒΠ³ΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½ - создавались Π΅Π³ΠΎ Π²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ Π½Π°ΡΠΌΠΎΡ‚Ρ€Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

🟒На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС модСль Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Π»Π° собствСнный CUDA-ΠΊΠΎΠ΄, тСстировала Π΅Π³ΠΎ ΠΈ ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ Π½Π° Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°Ρ…, отсСивая Π½Π΅ΡƒΠ΄Π°Ρ‡Π½Ρ‹Π΅.

🟒БамоС интСрСсноС - Ρ‚Ρ€Π΅Ρ‚ΠΈΠΉ этап.

ΠžΠ±ΡƒΡ‡Π°Π΅ΠΌΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π»ΠΈ нСсколько Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΉ CUDA-ядСр вмСстС с ΠΈΡ… показатСлями ускорСния, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€: Β«kernel_v1 Π΄Π°Π΅Ρ‚ ускорСниС 1.2xΒ», Β«kernel_v2 β€” 2.8xΒ», Π° Β«kernel_v3 β€” 1.5xΒ». Π—Π°Ρ‚Π΅ΠΌ Π·Π°Π΄Π°Π»ΠΈ 3 вопроса:

πŸŸ ΠŸΠΎΡ‡Π΅ΠΌΡƒ kernel_v2 Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ быстрСС?

🟠Какая стратСгия ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ сработаСт Π΅Ρ‰Π΅ Π»ΡƒΡ‡ΡˆΠ΅?

🟠Напиши ядро, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΏΡ€Π΅Π²Π·ΠΎΠΉΠ΄Π΅Ρ‚ ΠΈΡ… всС.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, модСль Π½Π΅ Π³Π°Π΄Π°Π΅Ρ‚ Π²ΡΠ»Π΅ΠΏΡƒΡŽ, Π° учится Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°Ρ…, анализируя ΠΏΡ€ΠΈΡ‡ΠΈΠ½Ρ‹ Ρ€Π°Π·Π½ΠΈΡ†Ρ‹ Π² ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.

πŸŸ‘ΠžΡ‚Π΄Π΅Π»ΡŒΠ½Π°Ρ история - ΠΊΠ°ΠΊ ΠΏΠΎΠ±Π΅Π΄ΠΈΠ»ΠΈ reward hacking.

ПослС обучСния Π²Ρ‹ΡΡΠ½ΠΈΠ»ΠΎΡΡŒ, Ρ‡Ρ‚ΠΎ Π±ΠΎΠ»Π΅Π΅ 30% сгСнСрированных Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΉ ΠΏΡ‹Ρ‚Π°Π»ΠΈΡΡŒ ΡΠΆΡƒΠ»ΡŒΠ½ΠΈΡ‡Π°Ρ‚ΡŒ - создавали Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ CUDA-ΠΏΠΎΡ‚ΠΎΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΠ»ΠΈΡΡŒ асинхронно.

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊ KernelBench отслСТивал врСмя Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° основном ΠΏΠΎΡ‚ΠΎΠΊΠ΅, ΠΊΠΎΠ΄ выглядСл быстрСС, Ρ‡Π΅ΠΌ Π±Ρ‹Π» Π½Π° самом Π΄Π΅Π»Π΅, показывая Ρ„ΠΈΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ускорСниС Π² 18 Ρ€Π°Π·.

Π”Ρ€ΡƒΠ³ΠΈΠ΅ ΡƒΠ»ΠΎΠ²ΠΊΠΈ состояли Π² манипуляции Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ (ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ batch_size ΠΈΠ»ΠΈ размСрностСй) ΠΈ ΠΊΠ΅ΡˆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² вычислСний.

πŸŸ‘ΠŸΡ€ΠΈΡˆΠ»ΠΎΡΡŒ ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎΡƒΡ€ΠΎΠ²Π½Π΅Π²ΡƒΡŽ Π·Π°Ρ‰ΠΈΡ‚Ρƒ.

Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, Π² качСствС "Π°Π΄Π²ΠΎΠΊΠ°Ρ‚Π° дьявола" взяли adversarial-Ρ‡Π΅ΠΊΠ΅Ρ€ Π½Π° Π±Π°Π·Π΅ DeepSeek-R1, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π» ΠΊΠΎΠ΄ Π½Π° ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ эксплойтов с Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ обнаруТСния Π±ΠΎΠ»Π΅Π΅ 60%.

Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, собрали Π±Π°Π·Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ· Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ 500 ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½ΠΎΠ² Π²Π·Π»ΠΎΠΌΠ°, это повысило Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ обнаруТСния Π½Π° 25%.

И Π²-Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΡ…, ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ матСматичСскоС сглаТиваниС ΠΈ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π½Π°Π³Ρ€Π°Π΄, Π³Π΄Π΅ любоС ΠΏΠΎΠ΄ΠΎΠ·Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ускорСниС (ΠΎΡ‚ 1.5x для простых ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΉ) Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΠ»ΠΎΡΡŒ.

🟑ПослС всСх Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ² ΠΈ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΠΊ ΠΏΡ€ΠΎΠ³ΠΎΠ½ Π½Π° Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ KernelBench оказался вСсьма ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ.

БистСма ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ сгСнСрировала Ρ€Π°Π±ΠΎΡ‡ΠΈΠΉ ΠΊΠΎΠ΄ для 249 ΠΈΠ· 250 Π·Π°Π΄Π°Ρ‡, ΠΏΡ€ΠΈΡ‡Π΅ΠΌ Π² 240 случаях ΠΊΠΎΠ΄ оказался быстрСС Π±Π°Π·ΠΎΠ²ΠΎΠΉ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ.

Π‘Ρ€Π΅Π΄Π½Π΅Π΅ ускорСниС ΠΏΠΎ всСм Π·Π°Π΄Π°Ρ‡Π°ΠΌ составило 3.12 Ρ€Π°Π·Π°, максимальноС - Π°ΠΆ 120 Ρ€Π°Π·. МСдианноС ускорСниС (50-ΠΉ ΠΏΠ΅Ρ€Ρ†Π΅Π½Ρ‚ΠΈΠ»ΡŒ) составило 1.42x, Π° 75-ΠΉ ΠΏΠ΅Ρ€Ρ†Π΅Π½Ρ‚ΠΈΠ»ΡŒ β€” 2.25x.

ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎ уровням слоТности Π·Π°Π΄Π°Ρ‡ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ»Π°ΡΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ: Π½Π° простых опСрациях срСднСС ускорСниС составило 2.78x, Π½Π° ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡΡ… ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΎΡ€ΠΎΠ² - 3.55x, Π° Π½Π° слоТных Π·Π°Π΄Π°Ρ‡Π°Ρ… Π²Ρ€ΠΎΠ΄Π΅ ΠΏΠΎΠ»Π½Ρ‹Ρ… слоСв трансформСра - 2.96x.

🟑БамоС Π²Π°ΠΆΠ½ΠΎΠ΅ - это ΠΏΠ΅Ρ€Π΅Π½ΠΎΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΉ.

Код, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π½Π° NVIDIA A100, Π±Ρ‹Π» протСстирован Π½Π° Π΄Ρ€ΡƒΠ³ΠΈΡ… GPU. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅ ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Ρ‹ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹ ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°Ρ….

Π‘Ρ€Π΅Π΄Π½Π΅Π΅ ускорСниС Π½Π° H100 составило 2.39x (ΡƒΡΠΏΠ΅ΡˆΠ½Ρ‹Ρ… ускорСний 227 ΠΈΠ· 250), Π½Π° L40 β€” 3.12x (228/248), Π° Π½Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΡŒΡΠΊΠΎΠΉ RTX 3090 β€” 2.50x (213/242).

▢️ Пока вСса ΠΈ ΠΊΠΎΠ΄ Π½Π΅ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹, Π½ΠΎ Π² ΠΎΠΆΠΈΠ΄Π°Π½ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠΊΡ€ΡƒΡ‚ΠΈΡ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ Π΄Π΅ΠΌΠΎ ΠΈ воспроизвСсти тСсты ΠΈΠ· ΠΏΠ΅ΠΉΠΏΠ΅Ρ€Π° - Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π΅ΡΡ‚ΡŒ Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Ρ‹ CUDA-ΠΊΠΎΠ΄Π° с ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ вСрсиями для Ρ€Π°Π·Π½Ρ‹Ρ… GPU.

πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: GPL-3.0 License.

πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°

🟑Arxiv

🟑Demo

πŸ–₯Github

@machinelearning

#AI #ML #CUDA #DeepReinforce #ContrastiveRL

-2
-3