Найти Π² Π”Π·Π΅Π½Π΅

πŸ”¬πŸ”“ SYNAPSE 30M: Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ Π±Π΅Π· ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² внимания Π½Π° Π±Π°Π·Π΅ ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ кодирования

Π—Π°Π±ΡƒΠ΄ΡŒΡ‚Π΅ ΠΏΡ€ΠΎ трансформСры ΠΈ self-attention β€” ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ SYNAPSE ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Ρ€Π°Π΄ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎ ΠΈΠ½ΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ тСкста, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠ΅ΠΉ ΠΌΠΎΠ·Π³Π°. МодСль Π½Π° 30 ΠΌΠ»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Ρ‡Π΅Ρ€Π΅Π· 3D-сСтку ΠΈΠ· 1000 Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π₯Π΅Π±Π±ΠΎΠ²ΡΠΊΡƒΡŽ ΠΏΠ»Π°ΡΡ‚ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ (ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ Β«Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π·Ρ€ΡΠΆΠ°ΡŽΡ‚ΡΡ вмСстС, ΡΠ²ΡΠ·Ρ‹Π²Π°ΡŽΡ‚ΡΡ вмСстС»). Π’ этой Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ ZERO ATTENTION LAYERS. ВмСсто ΠΏΡ€ΠΈΠ²Ρ‹Ρ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² внимания здСсь примСняСтся 3D-ΠΊΠΎΠ½Π²ΠΎΠ»ΡŽΡ†ΠΈΡ Ρ‡Π΅Ρ€Π΅Π· Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Ρ€Π΅ΡˆΠ΅Ρ‚ΠΊΡƒ, морфологичСская Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ для поиска ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½ΠΎΠ² ΠΈ разрСТСнная активация. Π‘Π°ΠΌΠΎΠ΅ Π²ΠΏΠ΅Ρ‡Π°Ρ‚Π»ΡΡŽΡ‰Π΅Π΅ β€” ΠΏΠ°ΠΌΡΡ‚ΡŒ O(1). Π­Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠ΅ рСсурсов Π½Π΅ растСт вмСстС с Π΄Π»ΠΈΠ½ΠΎΠΉ контСкста, Π° Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠ° инфСрСнса остаСтся константной (~2 мс) Ρ‡Ρ‚ΠΎ для 64, Ρ‡Ρ‚ΠΎ для 16 000 Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². МодСль ΠΎΠ±ΡƒΡ‡Π°Π»Π°ΡΡŒ Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ символов (character-level) Π½Π° датасСтС OpenWebText. ПослС всСго ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π° ΠΏΠΎ 2 ΠΌΠ»Ρ€Π΄ символов ΠΎΠ½Π° достигла точности 98.27% Π½Π° Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ. Для Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌ Π½ΡƒΠΆΠ΅Π½ Β«Ρ€Π°Π·ΠΎΠ³Ρ€Π΅Π²Β» β€” ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΈΠΉ Π²Π²ΠΎΠ΄Π½Ρ‹ΠΉ тСкст (primer), ΠΊΠΎΡ‚ΠΎΡ€Ρ‹

πŸ”¬πŸ”“ SYNAPSE 30M: Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ Π±Π΅Π· ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² внимания Π½Π° Π±Π°Π·Π΅ ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ кодирования

Π—Π°Π±ΡƒΠ΄ΡŒΡ‚Π΅ ΠΏΡ€ΠΎ трансформСры ΠΈ self-attention β€” ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ SYNAPSE ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Ρ€Π°Π΄ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎ ΠΈΠ½ΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ тСкста, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠ΅ΠΉ ΠΌΠΎΠ·Π³Π°. МодСль Π½Π° 30 ΠΌΠ»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Ρ‡Π΅Ρ€Π΅Π· 3D-сСтку ΠΈΠ· 1000 Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π₯Π΅Π±Π±ΠΎΠ²ΡΠΊΡƒΡŽ ΠΏΠ»Π°ΡΡ‚ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ (ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ Β«Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π·Ρ€ΡΠΆΠ°ΡŽΡ‚ΡΡ вмСстС, ΡΠ²ΡΠ·Ρ‹Π²Π°ΡŽΡ‚ΡΡ вмСстС»).

Π’ этой Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ ZERO ATTENTION LAYERS. ВмСсто ΠΏΡ€ΠΈΠ²Ρ‹Ρ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² внимания здСсь примСняСтся 3D-ΠΊΠΎΠ½Π²ΠΎΠ»ΡŽΡ†ΠΈΡ Ρ‡Π΅Ρ€Π΅Π· Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Ρ€Π΅ΡˆΠ΅Ρ‚ΠΊΡƒ, морфологичСская Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ для поиска ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½ΠΎΠ² ΠΈ разрСТСнная активация. Π‘Π°ΠΌΠΎΠ΅ Π²ΠΏΠ΅Ρ‡Π°Ρ‚Π»ΡΡŽΡ‰Π΅Π΅ β€” ΠΏΠ°ΠΌΡΡ‚ΡŒ O(1). Π­Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠ΅ рСсурсов Π½Π΅ растСт вмСстС с Π΄Π»ΠΈΠ½ΠΎΠΉ контСкста, Π° Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠ° инфСрСнса остаСтся константной (~2 мс) Ρ‡Ρ‚ΠΎ для 64, Ρ‡Ρ‚ΠΎ для 16 000 Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

МодСль ΠΎΠ±ΡƒΡ‡Π°Π»Π°ΡΡŒ Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ символов (character-level) Π½Π° датасСтС OpenWebText. ПослС всСго ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π° ΠΏΠΎ 2 ΠΌΠ»Ρ€Π΄ символов ΠΎΠ½Π° достигла точности 98.27% Π½Π° Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ. Для Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌ Π½ΡƒΠΆΠ΅Π½ Β«Ρ€Π°Π·ΠΎΠ³Ρ€Π΅Π²Β» β€” ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΈΠΉ Π²Π²ΠΎΠ΄Π½Ρ‹ΠΉ тСкст (primer), ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ 3D-сСтку Π² Ρ€Π°Π±ΠΎΡ‡Π΅Π΅ состояниС, имитируя сСнсорный ΠΏΠΎΡ‚ΠΎΠΊ Π² ΠΆΠΈΠ²Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… цСпях.

ΠŸΠΎΠΏΡ€ΠΎΠ±ΠΎΠ²Π°Ρ‚ΡŒ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Π² Π΄Π΅Π»Π΅ ΠΌΠΎΠΆΠ½ΠΎ Ρ‡Π΅Ρ€Π΅Π· ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ Π½Π° Hugging Face. Код Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ стандартный для PyTorch, Π½ΠΎ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ спСцифичСских ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² сСтки: model = SynapseLM(vocab=568, d=764, S=10, D=10). Π­Ρ‚ΠΎ Π²Π°ΠΆΠ½Ρ‹ΠΉ шаг Π² сторону attention-free ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ Β«ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности» соврСмСнных LLM.

#AI #OpenSource #Research #SYNAPSE #AttentionFree #PredictiveCoding #NeuralNetworks

πŸ”— Nick103/SYNAPSE-30M-weights