Найти Π² Π”Π·Π΅Π½Π΅
10,3 тыс подписчиков

🌟 ΠœΠ°Π»Ρ‹Π΅ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ: ΠΎΠ±Π·ΠΎΡ€, измСрСния ΠΈ Π²Ρ‹Π²ΠΎΠ΄Ρ‹.


ИсслСдованиС, ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π½ΠΎΠ΅ УнивСрситСтом ΠšΠ΅ΠΌΠ±Ρ€ΠΈΠ΄ΠΆΠ°, ПСкинским унивСрситСтом ΠΏΠΎΡ‡Ρ‚Ρ‹ ΠΈ Ρ‚Π΅Π»Π΅ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΉ ΠΎ ΠΌΠ°Π»Ρ‹Ρ… языковых модСлях, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π² ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΌ доступС Π² ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ с 2022-2024 Π³Π³.

Авторами Π±Ρ‹Π»ΠΈ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ 59 соврСмСнных ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… SLM, ΠΈΡ… Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ Π½Π°Π±ΠΎΡ€Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… для обучСния ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹. ЦСлСвая Π³Ρ€ΡƒΠΏΠΏΠ° состояла ΠΈΠ· ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ с 100M–5B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ, построСнных Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°-трансформСра, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ подходят для устройств ΠΎΡ‚ носимых Π³Π°Π΄ΠΆΠ΅Ρ‚ΠΎΠ² Π΄ΠΎ смартфонов ΠΈ ΠΏΠ»Π°Π½ΡˆΠ΅Ρ‚ΠΎΠ².

Π’Ρ‹Π²ΠΎΠ΄Ρ‹, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΏΡ€ΠΈΡˆΠ»ΠΈ Π°Π²Ρ‚ΠΎΡ€Ρ‹:

АрхитСктура SLM

πŸŸ’ΠΠ°Π±Π»ΡŽΠ΄Π°Π΅Ρ‚ΡΡ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ ΠΎΡ‚ Multi-Head Attention (MHA) ΠΊ Group-Query Attention (GQA) для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ эффСктивности.
🟒Gated FFN с Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠ΅ΠΉ SiLU ΠΈ ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹ΠΌ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ΠΌ 2-8 становится всС Π±ΠΎΠ»Π΅Π΅ популярным Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ.
πŸŸ’Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ RMS-Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ словаря Π±ΠΎΠ»Π΅Π΅ 50 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².
πŸŸ’Π˜Π½Π½ΠΎΠ²Π°Ρ†ΠΈΠΈ Π² Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ ΠΏΠΎΠΊΠ° ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Ρ‹.

Наборы Π΄Π°Π½Π½Ρ‹Ρ… для обучСния

🟒The Pile Π±Ρ‹Π» Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹ΠΌ Π½Π°Π±ΠΎΡ€ΠΎΠΌ Π΄Π°Π½Π½Ρ‹Ρ…, Π½ΠΎ Π² послСднСС врСмя Π²Ρ‹Π±ΠΎΡ€ стал Π±ΠΎΠ»Π΅Π΅ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹ΠΌ, всС Ρ‡Π°Ρ‰Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ RefinedWeb ΠΈ RedPajama.
πŸŸ’Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ SLM ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‚ΡΡ Π½Π° Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ большСм количСствС Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ >1.5T), Ρ‡Π΅ΠΌ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚ Π·Π°ΠΊΠΎΠ½ Chinchilla, Ρ‡Ρ‚ΠΎ ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π½Π° ΠΈΡ… Β«ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅Β» для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π½Π° устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

Алгоритмы обучСния

πŸŸ Π§Π°Ρ‰Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π½ΠΎΠ²Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹: Maximal Update Parameterization (Β΅P), Knowledge Distillation ΠΈ Two Stage Pre-training Strategy для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ обучСния ΠΈ эффСктивности пСрСноса Π·Π½Π°Π½ΠΈΠΉ.

ВозмоТности SLM

πŸŸ Π—Π° ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ с 2022 ΠΏΠΎ 2024 Π³ΠΎΠ΄ SLM ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π² Ρ€Π°Π·Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнного языка, прСвзойдя ΡΠ΅Ρ€ΠΈΡŽ LLM LLaMA-7B.
πŸŸ Π‘Π΅ΠΌΠ΅ΠΉΡΡ‚Π²ΠΎ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Phi ΠΈΠΌΠ΅Π΅Ρ‚ самыС высокиС ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ точности, сопСрничая с LLaMA 3.1 8B.
🟠SLM, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π½Π° общСдоступных датасСтах, ΡΠΎΠΊΡ€Π°Ρ‰Π°ΡŽΡ‚ Ρ€Π°Π·Ρ€Ρ‹Π² с модСлями, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ Π½Π° Π·Π°ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, Π² Π·Π°Π΄Π°Ρ‡Π°Ρ…, связанных со Π·Π΄Ρ€Π°Π²Ρ‹ΠΌ смыслом.

ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

πŸŸ’Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ SLM ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ ΠΊ контСкстному ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, хотя ΠΎΠ½Π° зависит ΠΎΡ‚ Π·Π°Π΄Π°Ρ‡ΠΈ.
πŸŸ’Π‘ΠΎΠ»Π΅Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· SLM Π±ΠΎΠ»Π΅Π΅ восприимчивы ΠΊ контСкстному ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ.

Latency ΠΈ ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠ΅ VRAM

🟒Помимо Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½Π° Π·Π°Π΄Π΅Ρ€ΠΆΠΊΡƒ влияСт ΠΈ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°: количСство слоСв, ΡˆΠΈΡ€ΠΈΠ½Π° FFN, Ρ€Π°Π·ΠΌΠ΅Ρ€ словаря ΠΈ совмСстноС использованиС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ².
πŸŸ’Π’Π»ΠΈΡΠ½ΠΈΠ΅ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Π²Ρ‹Π²ΠΎΠ΄Π° Π±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π° этапС ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (prefill), Ρ‡Π΅ΠΌ Π½Π° этапС дСкодирования.
🟒ИспользованиС памяти Π²ΠΎ врСмя выполнСния ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ с количСством ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ВлияниС квантования ΠΈ оборудования

πŸŸ ΠŸΡ€Π΅ΠΈΠΌΡƒΡ‰Π΅ΡΡ‚Π²Π° квантования Π½Π° этапС дСкодирования большС, Ρ‡Π΅ΠΌ Π½Π° этапС ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ.
πŸŸ Π“Ρ€Π°Ρ„ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ процСссоры Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ Π΅Ρ‰Π΅ большСС прСимущСство ΠΏΠ΅Ρ€Π΅Π΄ Ρ†Π΅Π½Ρ‚Ρ€Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ процСссорами Π½Π° этапС ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ.

🟑Arxiv
πŸ–₯GitHub


#AI #ML #SLM #Paper #Arxiv
2 ΠΌΠΈΠ½ΡƒΡ‚Ρ‹