Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π² ΠΊΠΎΡ€Π·ΠΈΠ½ΡƒΠŸΠΎΠ·Π²ΠΎΠ½ΠΈΡ‚ΡŒ
Найти Π² Π”Π·Π΅Π½Π΅
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

πŸ“Œ Ai2: Π“ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ трансформСры ΠΏΠΎ-Ρ€Π°Π·Π½ΠΎΠΌΡƒ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ с тСкстом

Π˜Π½ΡΡ‚ΠΈΡ‚ΡƒΡ‚ АллСна опубликовал работу, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ выяснили, ΠΊΠ°ΠΊ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ влияСт Π½Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ тСкста. Π‘ΠΏΠΎΠΉΠ»Π΅Ρ€: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π»ΡƒΡ‡ΡˆΠ΅ ΡƒΠ»Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ смысл, Π° классичСскиС трансформСры Ρ‚ΠΎΡ‡Π½Π΅Π΅ ΠΊΠΎΠΏΠΈΡ€ΡƒΡŽΡ‚ Π΄Π°Π½Π½Ρ‹Π΅. Для экспСримСнта взяли 2 собствСнныС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ - Olmo 3 ΠΈ Olmo Hybrid. ОбС ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈΡΡŒ Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ, ΠΎΡ‚Π»ΠΈΡ‡Π°Π»ΠΎΡΡŒ лишь ΠΈΡ… Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅Π΅ устройство. 🟒Olmo 3: классичСский decoder-only трансформСр 🟠Olmo Hybrid: Π³ΠΈΠ±Ρ€ΠΈΠ΄ c Ρ‡Π΅Ρ€Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ слоСв RNN ΠΈ трансформСров Π² ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΈ 3:1 ВрансформСры ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ слоС. МодСль ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ ΠΎΠ±Ρ€Π°Ρ‰Π°Ρ‚ΡŒΡΡ ΠΊ Π»ΡŽΠ±ΠΎΠΌΡƒ ΠΈΠ· ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… мощностСй, Π·Π°Ρ‚ΠΎ позволяСт идСально Ρ†ΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π½Π½ΠΎΠ΅. Π“ΠΈΠ±Ρ€ΠΈΠ΄ сохраняСт нСсколько слоёв внимания, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ замСняСт Ρ€Π΅ΠΊΡƒΡ€Ρ€Π΅Π½Ρ‚Π½Ρ‹ΠΌΠΈ. Они Ρ‡ΠΈΡ‚Π°ΡŽΡ‚ тСкст строго слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ ΠΈ ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ Π΅Π³ΠΎ Π² Π²ΠΈΠ΄Π΅ сТатой памяти. Вакая ΠΏΠ°ΠΌΡΡ‚ΡŒ Π½Π΅ Π΄Π°Ρ‘Ρ‚ Ρ‚ΠΎΡ‡Π½ΠΎ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ ΠΊ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΌΡƒ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌΡƒ Ρ‚ΠΎΠΊΠ΅Π½Ρƒ, Π·Π°Ρ‚ΠΎ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹ Π½Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ постоянными нСзависимо ΠΎΡ‚ Π΄Π»ΠΈΠ½Ρ‹

πŸ“Œ Ai2: Π“ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ трансформСры ΠΏΠΎ-Ρ€Π°Π·Π½ΠΎΠΌΡƒ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ с тСкстом

Π˜Π½ΡΡ‚ΠΈΡ‚ΡƒΡ‚ АллСна опубликовал работу, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ выяснили, ΠΊΠ°ΠΊ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ влияСт Π½Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ тСкста.

Π‘ΠΏΠΎΠΉΠ»Π΅Ρ€: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π»ΡƒΡ‡ΡˆΠ΅ ΡƒΠ»Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ смысл, Π° классичСскиС трансформСры Ρ‚ΠΎΡ‡Π½Π΅Π΅ ΠΊΠΎΠΏΠΈΡ€ΡƒΡŽΡ‚ Π΄Π°Π½Π½Ρ‹Π΅.

Для экспСримСнта взяли 2 собствСнныС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ - Olmo 3 ΠΈ Olmo Hybrid. ОбС ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈΡΡŒ Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ, ΠΎΡ‚Π»ΠΈΡ‡Π°Π»ΠΎΡΡŒ лишь ΠΈΡ… Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅Π΅ устройство.

🟒Olmo 3: классичСский decoder-only трансформСр

🟠Olmo Hybrid: Π³ΠΈΠ±Ρ€ΠΈΠ΄ c Ρ‡Π΅Ρ€Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ слоСв RNN ΠΈ трансформСров Π² ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΈ 3:1

ВрансформСры ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ слоС. МодСль ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ ΠΎΠ±Ρ€Π°Ρ‰Π°Ρ‚ΡŒΡΡ ΠΊ Π»ΡŽΠ±ΠΎΠΌΡƒ ΠΈΠ· ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… мощностСй, Π·Π°Ρ‚ΠΎ позволяСт идСально Ρ†ΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π½Π½ΠΎΠ΅.

Π“ΠΈΠ±Ρ€ΠΈΠ΄ сохраняСт нСсколько слоёв внимания, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ замСняСт Ρ€Π΅ΠΊΡƒΡ€Ρ€Π΅Π½Ρ‚Π½Ρ‹ΠΌΠΈ. Они Ρ‡ΠΈΡ‚Π°ΡŽΡ‚ тСкст строго слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ ΠΈ ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ Π΅Π³ΠΎ Π² Π²ΠΈΠ΄Π΅ сТатой памяти. Вакая ΠΏΠ°ΠΌΡΡ‚ΡŒ Π½Π΅ Π΄Π°Ρ‘Ρ‚ Ρ‚ΠΎΡ‡Π½ΠΎ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ ΠΊ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΌΡƒ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌΡƒ Ρ‚ΠΎΠΊΠ΅Π½Ρƒ, Π·Π°Ρ‚ΠΎ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹ Π½Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ постоянными нСзависимо ΠΎΡ‚ Π΄Π»ΠΈΠ½Ρ‹ тСкста.

Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΠΌΠ΅Ρ€ΠΈΡ‚ΡŒ Ρ€Π°Π·Π½ΠΈΡ†Ρƒ, ΠΎΠ±Π΅ΠΈΠΌ модСлям ΠΏΠΎΠ΄Π°Π²Π°Π»ΠΈ ΡΡ‚Π°Ρ‚ΡŒΠΈ, страницы Wikipedia, ΠΊΠ½ΠΈΠ³ΠΈ, Π½Π°ΡƒΡ‡Π½Ρ‹Π΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΊΠΎΠ΄ Π½Π° Python, HTML ΠΈ LaTeX. На Π²Ρ‹Ρ…ΠΎΠ΄Π΅ фиксировали, насколько Ρ‚ΠΎΡ‡Π½ΠΎ каТдая модСль прСдсказываСт ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ Ρ‚ΠΎΠΊΠ΅Π½.

πŸŸ‘Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚

Π“ΠΈΠ±Ρ€ΠΈΠ΄ Π»ΡƒΡ‡ΡˆΠ΅ прСдсказываСт смысловыС слова (ΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅, Π³Π»Π°Π³ΠΎΠ»Ρ‹ ΠΈ ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅). Он Ρ‚Π°ΠΊΠΆΠ΅ прСвосходит чистый трансформСр Ρ‚Π°ΠΌ, Π³Π΄Π΅ Π½ΡƒΠΆΠ½ΠΎ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ контСкста.

Но Π΅Π³ΠΎ прСимущСство ΠΏΠΎΡ‡Ρ‚ΠΈ исчСзало Π² случаях, ΠΊΠΎΠ³Π΄Π° Π΄Π΅Π»ΠΎ Π΄ΠΎΡ…ΠΎΠ΄ΠΈΡ‚ Π΄ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎΠ³ΠΎ цитирования. Π§Π΅ΠΌ Π΄Π»ΠΈΠ½Π½Π΅Π΅ Π±Ρ‹Π» ΠΏΠΎΠ²Ρ‚ΠΎΡ€, Ρ‚Π΅ΠΌ мСньшС становился Ρ€Π°Π·Ρ€Ρ‹Π². Π—Π΄Π΅ΡΡŒ Ρ‚ΠΎΡ‡Π½Π΅Π΅ оказывался трансформСр.

Π’ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌ ΠΏΡ€ΠΎΠ³ΠΎΠ½Π΅ с 3-мя модСлями Π½Π° 1Π’ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (трансформСром, Π³ΠΈΠ±Ρ€ΠΈΠ΄ΠΎΠΌ ΠΈ чистой Ρ€Π΅ΠΊΡƒΡ€Ρ€Π΅Π½Ρ‚Π½ΠΎΠΉ модСлью Π±Π΅Π· внимания), Π²Ρ‹ΡΡΠ½ΠΈΠ»ΠΎΡΡŒ, Ρ‡Ρ‚ΠΎ Π³ΠΈΠ±Ρ€ΠΈΠ΄ пасуСт ΠΏΠ΅Ρ€Π΅Π΄ Ρ‚ΠΎΡ‡Π½Ρ‹ΠΌ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π΅Π½ΠΈΠ΅ΠΌ тСкста ΠΈ Π·Π°ΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌΠΈ скобками Π² ΠΊΠΎΠ΄Π΅.

πŸŸ‘Π’Ρ‹Π²ΠΎΠ΄Ρ‹

ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ: Π΅Π΄ΠΈΠ½Ρ‹ΠΉ усрСднённый ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ ошибки слишком Π³Ρ€ΡƒΠ± для сравнСния Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ - различия Π²ΠΈΠ΄Π½Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΡ€ΠΈ Ρ€Π°Π·Π±ΠΎΡ€Π΅ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ‚ΠΈΠΏΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Π’Ρ‚ΠΎΡ€ΠΎΠΉ: прСимущСство Π³ΠΈΠ±Ρ€ΠΈΠ΄Π° Π½Π° смысловых словах связано со ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ RNN-слоёв ΠΎΡ‚ΡΠ»Π΅ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠ΅Π½ΡΡŽΡ‰Π΅Π΅ΡΡ состояниС тСкста.

#AI #ML #LLM #Research #Ai2

-2
-3