Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π² ΠΊΠΎΡ€Π·ΠΈΠ½ΡƒΠŸΠΎΠ·Π²ΠΎΠ½ΠΈΡ‚ΡŒ
Найти Π² Π”Π·Π΅Π½Π΅
AI Wiz

🧠 Attention Residuals: Kimi ΠΏΠ΅Ρ€Π΅ΠΈΠ·ΠΎΠ±Ρ€Π΅Π»Π° способ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ слоями нСйросСтСй

16 ΠΌΠ°Ρ€Ρ‚Π° 2026 ΠΊΠΎΠΌΠ°Π½Π΄Π° Kimi Team (Moonshot AI) ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»Π° исслСдованиС "Attention Residuals". Π“Π»Π°Π²Π½ΠΎΠ΅ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΈΠ΅: residual connections β€” Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚ всСх LLM с 2015 Π³ΠΎΠ΄Π° β€” ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ ΡƒΠΌΠ½Π΅Π΅, Π·Π°ΠΌΠ΅Π½ΠΈΠ² слСпоС слоТСниС Π½Π° сСлСктивноС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅. πŸ“ ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ°, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΈΠ³Π½ΠΎΡ€ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ ВсС соврСмСнныС LLM (GPT, Claude, Gemini) ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ residual connections β€” ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ слоями нСйросСти. Π˜Π·ΠΎΠ±Ρ€Π΅Ρ‚Ρ‘Π½ Π² 2015 Π³ΠΎΠ΄Ρƒ, с Ρ‚Π΅Ρ… ΠΏΠΎΡ€ Π½Π΅ мСнялся. Как это Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ сСйчас: ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ слой просто складываСт свой Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ с Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌΠΈ всСх ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… слоёв. Π—Π²ΡƒΡ‡ΠΈΡ‚ Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ, Π½ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°. Π’ Π³Π»ΡƒΠ±ΠΎΠΊΠΈΡ… сСтях (100+ слоёв) ΠΊ ΠΊΠΎΠ½Ρ†Ρƒ сСти информация ΠΎΡ‚ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… слоёв "разбавляСтся" β€” тСряСтся Π² ΠΊΡƒΡ‡Π΅ ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ². Π­Ρ‚ΠΎ называСтся PreNorm dilution. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚: Ρ€Π°Π½Π½ΠΈΠ΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π΄Π΅Ρ‚Π°Π»ΠΈ Π½Π΅ доходят Π΄ΠΎ Ρ„ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… слоёв, Π³Π΄Π΅ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°ΡŽΡ‚ΡΡ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. ⚑️ Attention вмСсто слоТСния: ΠΊΠ°ΠΊ Kimi это ΠΈΠ·ΠΌΠ΅Π½ΠΈΠ»Π° Kimi Π·Π°ΠΌΠ΅Π½ΠΈΠ»Π° слСпоС слоТСниС Π½Π° ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания (attention) β€” Ρ‚ΠΎΡ‚ ΠΆΠ΅ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π²Π½

🧠 Attention Residuals: Kimi ΠΏΠ΅Ρ€Π΅ΠΈΠ·ΠΎΠ±Ρ€Π΅Π»Π° способ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ слоями нСйросСтСй

16 ΠΌΠ°Ρ€Ρ‚Π° 2026 ΠΊΠΎΠΌΠ°Π½Π΄Π° Kimi Team (Moonshot AI) ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»Π° исслСдованиС "Attention Residuals". Π“Π»Π°Π²Π½ΠΎΠ΅ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΈΠ΅: residual connections β€” Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚ всСх LLM с 2015 Π³ΠΎΠ΄Π° β€” ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ ΡƒΠΌΠ½Π΅Π΅, Π·Π°ΠΌΠ΅Π½ΠΈΠ² слСпоС слоТСниС Π½Π° сСлСктивноС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

πŸ“ ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ°, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΈΠ³Π½ΠΎΡ€ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ

ВсС соврСмСнныС LLM (GPT, Claude, Gemini) ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ residual connections β€” ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ слоями нСйросСти. Π˜Π·ΠΎΠ±Ρ€Π΅Ρ‚Ρ‘Π½ Π² 2015 Π³ΠΎΠ΄Ρƒ, с Ρ‚Π΅Ρ… ΠΏΠΎΡ€ Π½Π΅ мСнялся.

Как это Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ сСйчас: ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ слой просто складываСт свой Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ с Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌΠΈ всСх ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… слоёв. Π—Π²ΡƒΡ‡ΠΈΡ‚ Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ, Π½ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°.

Π’ Π³Π»ΡƒΠ±ΠΎΠΊΠΈΡ… сСтях (100+ слоёв) ΠΊ ΠΊΠΎΠ½Ρ†Ρƒ сСти информация ΠΎΡ‚ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… слоёв "разбавляСтся" β€” тСряСтся Π² ΠΊΡƒΡ‡Π΅ ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ². Π­Ρ‚ΠΎ называСтся PreNorm dilution. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚: Ρ€Π°Π½Π½ΠΈΠ΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π΄Π΅Ρ‚Π°Π»ΠΈ Π½Π΅ доходят Π΄ΠΎ Ρ„ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… слоёв, Π³Π΄Π΅ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°ΡŽΡ‚ΡΡ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ.

⚑️ Attention вмСсто слоТСния: ΠΊΠ°ΠΊ Kimi это ΠΈΠ·ΠΌΠ΅Π½ΠΈΠ»Π°

Kimi Π·Π°ΠΌΠ΅Π½ΠΈΠ»Π° слСпоС слоТСниС Π½Π° ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания (attention) β€” Ρ‚ΠΎΡ‚ ΠΆΠ΅ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π²Π½ΡƒΡ‚Ρ€ΠΈ трансформСров.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ слой Π½Π΅ складываСт всё подряд, Π°:

- Π‘ΠΌΠΎΡ‚Ρ€ΠΈΡ‚ Π½Π° всС ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠ΅ слои

- Π Π΅ΡˆΠ°Π΅Ρ‚, ΠΊΠ°ΠΊΠΈΠ΅ ΠΈΠ· Π½ΠΈΡ… Π²Π°ΠΆΠ½Ρ‹ для Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ

- Π—Π°Π±ΠΈΡ€Π°Π΅Ρ‚ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚Ρ‚ΡƒΠ΄Π°

Аналогия: вмСсто "запиши всС мысли Π² ΠΎΠ΄ΠΈΠ½ Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ ΠΈ листай всё подряд" Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ "Ρ…Ρ€Π°Π½ΠΈ Π·Π°ΠΌΠ΅Ρ‚ΠΊΠΈ Π² ΠΏΠ°ΠΏΠΊΠ°Ρ… ΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°ΠΉ Π½ΡƒΠΆΠ½ΡƒΡŽ, ΠΊΠΎΠ³Π΄Π° ΠΎΠ½Π° понадобится".

πŸ“Š Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

МодСль с Attention Residuals (48B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΏΡ€Π΅Π²Π·ΠΎΡˆΠ»Π° baseline Π½Π° слоТных Π·Π°Π΄Π°Ρ‡Π°Ρ…: ΠΌΠ½ΠΎΠ³ΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹Π΅ рассуТдСния (+7.5 ΠΏΡƒΠ½ΠΊΡ‚ΠΎΠ² Π½Π° GPQA-Diamond), гСнСрация ΠΊΠΎΠ΄Π° (+3.1 Π½Π° HumanEval), ΠΎΠ±Ρ‰ΠΈΠ΅ знания (+1.1 Π½Π° MMLU).

ΠŸΡ€ΠΈ Ρ‚ΠΎΠΌ ΠΆΠ΅ качСствС AttnRes Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π½Π° 25% мСньшС вычислСний β€” это сущСствСнная экономия для обучСния Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

πŸ’‘ ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ смысл

Π­Ρ‚ΠΎ drop-in replacement β€” ΠΌΠΎΠΆΠ½ΠΎ Π²Π·ΡΡ‚ΡŒ Π»ΡŽΠ±ΡƒΡŽ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΡƒΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ ΠΈ Π·Π°ΠΌΠ΅Π½ΠΈΡ‚ΡŒ residuals Π½Π° AttnRes Π±Π΅Π· ΠΏΠ΅Ρ€Π΅Π΄Π΅Π»ΠΊΠΈ ΠΎΡΡ‚Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π°.

Kimi Π΄ΠΎΠΊΠ°Π·Π°Π»Π°: Π΄Π°ΠΆΠ΅ Π±Π°Π·ΠΎΠ²Ρ‹Π΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ 10 Π»Π΅Ρ‚ ΡΡ‡ΠΈΡ‚Π°Π»ΠΈΡΡŒ "стандартом индустрии", ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ. НС всСгда Π½ΡƒΠΆΠ½Ρ‹ Π½ΠΎΠ²Ρ‹Π΅ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ β€” ΠΈΠ½ΠΎΠ³Π΄Π° достаточно ΠΏΠ΅Ρ€Π΅ΠΎΡΠΌΡ‹ΡΠ»ΠΈΡ‚ΡŒ старыС.

πŸš€ ΠŸΠΎΠΏΡ€ΠΎΠ±ΡƒΠΉΡ‚Π΅ соврСмСнныС LLM Π² AI Wiz 2.0

Новая вСрсия ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΡ‹ β€” доступ ΠΈΠ· Π΄Π°ΡˆΠ±ΠΎΡ€Π΄Π°.

#AIWiz #Kimi #AttentionResiduals #LLM #DeepLearning