ΡΠΎΠΊΠ΅Π½Ρ.) Sakana AI Π²ΡΠΏΡΡΡΠΈΠ»ΠΈ DroPE - ΠΌΠ΅ΡΠΎΠ΄, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΠ²Π΅Π»ΠΈΡΠΈΡΡ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ Ρ ΡΠΆΠ΅ ΠΏΡΠ΅Π΄ΠΎΠ±ΡΡΠ΅Π½Π½ΡΡ
LLM Π±Π΅Π· ΠΏΡΠΈΠ²ΡΡΠ½ΡΡ
Π°Π΄ΡΠΊΠΈΡ
Π·Π°ΡΡΠ°Ρ Π½Π° long-context fine-tuning. ΠΠ΄Π΅Ρ Π·Π²ΡΡΠΈΡ ΠΊΠ°ΠΊ Π΅ΡΠ΅ΡΡ, Π½ΠΎ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π³ΠΎΠ²ΠΎΡΡΡ ΠΎΠ± ΠΎΠ±ΡΠ°ΡΠ½ΠΎΠΌ . π‘ ΠΠ»Π°Π²Π½ΡΠΉ ΠΈΠ½ΡΠ°ΠΉΡ ΠΠΎΠ·ΠΈΡΠΈΠΎΠ½Π½ΡΠ΅ ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ RoPE) ΠΆΠΈΠ·Π½Π΅Π½Π½ΠΎ Π²Π°ΠΆΠ½Ρ, ΡΡΠΎΠ±Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Π½ΠΎΡΠΌΠ°Π»ΡΠ½ΠΎ ΠΎΠ±ΡΡΠΈΠ»Π°ΡΡ ΠΈ ΡΠΎΡΠ»Π°ΡΡ. ΠΠΎ ΠΏΠΎΡΠ»Π΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΎΠ½ΠΈ ΠΆΠ΅ ΡΡΠ°Π½ΠΎΠ²ΡΡΡΡ Π³Π»Π°Π²Π½ΡΠΌ ΠΎΠ³ΡΠ°Π½ΠΈΡΠΈΡΠ΅Π»Π΅ΠΌ, ΠΈΠ·-Π·Π° ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΠ»ΠΎΡ
ΠΎ ΠΏΠ΅ΡΠ΅Π½ΠΎΡΠΈΡ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ Π΄Π»ΠΈΠ½Π½Π΅Π΅, ΡΠ΅ΠΌ Π²ΠΈΠ΄Π΅Π»Π° Π½Π° ΡΡΠ΅ΠΉΠ½Π΅. Π’ΠΎ Π΅ΡΡΡ: - Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ - Π½ΡΠΆΠ½Ρ - Π΄Π»Ρ Π³Π΅Π½Π΅ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ Π½Π° ΠΎΡΠ΅Π½Ρ Π΄Π»ΠΈΠ½Π½ΡΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ - ΠΌΠ΅ΡΠ°ΡΡ β
Π Π΅ΡΠ΅Π½ΠΈΠ΅ DroPE ΠΠ²ΡΠΎΡΡ ΠΏΡΠ΅Π΄Π»Π°Π³Π°ΡΡ ΠΎΡΠ½ΠΎΡΠΈΡΡΡΡ ΠΊ ΠΏΠΎΠ·ΠΈΡΠΈΠΎΠ½Π½ΡΠΌ ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³Π°ΠΌ ΠΊΠ°ΠΊ ΠΊ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠΌ βΡΡΡΠΎΠΈΡΠ΅Π»ΡΠ½ΡΠΌ Π»Π΅ΡΠ°ΠΌβ: - Π² pretraining ΠΎΠ½ΠΈ Π΄Π°ΡΡ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎΡΡΡ - ΠΏΠΎΡΠ»Π΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΈΡ
ΠΌΠΎΠΆΠ½ΠΎ ΡΠ±ΡΠΎΡΠΈΡΡ (drop) - ΠΈ ΠΏΠΎΠ»ΡΡΠΈΡΡ zero-shot length extrapolation (ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π°ΡΠΈΠ½Π°Π΅Ρ Π·Π°ΠΌΠ΅ΡΠ½ΠΎ Π»ΡΡΡΠ΅ ΡΠ°Π±ΠΎΡΠ°ΡΡ Π½Π° Π΄Π»ΠΈΠ½Π°Ρ
, ΠΊΠΎΡΠΎΡΡΡ
Π½Π΅ Π²ΠΈΠ΄Π΅Π»Π°) ΠΠΎΠ»ΡΡΠΈΠ΅ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΡ Π½ΡΠΆΠ½Ρ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»ΡΠΌ : - ΠΎΠ³ΡΠΎΠΌΠ½ΡΠ΅ code diff ΠΈ ΠΌΠΎΠ½ΠΎΡΠ΅ΠΏΡ - ΡΡΠΈΠ΄ΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΠΊΠΎΠ½ΡΡΠ°ΠΊΡΡ Π½Π° ΡΠΎΡΠ½ΠΈ ΡΡΡΠ°Π½ΠΈΡ - Π°Π½Π°
π DroPE: ΠΊΠ°ΠΊ ΡΠ°ΡΡΠΈΡΠΈΡΡ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ LLM, ΠΏΡΠΎΡΡΠΎ βΠ²ΡΠΊΠΈΠ½ΡΠ²β ΠΏΠΎΠ·ΠΈΡΠΈΠΎΠ½Π½ΡΠ΅ ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ (ΠΌΠ΅Ρ Π°Π½ΠΈΠ·ΠΌ, ΠΊΠΎΡΠΎΡΡΠΉ Π³ΠΎΠ²ΠΎΡΠΈΡ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΡ Π² ΠΊΠ°ΠΊΠΎΠΌ ΠΏΠΎΡΡΠ΄ΠΊΠ΅ ΠΈΠ΄ΡΡ
12Β ΡΠ½Π²Π°ΡΡ12Β ΡΠ½Π²
4
1 ΠΌΠΈΠ½