Найти Π² Π”Π·Π΅Π½Π΅
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

🧠 ΠŸΠΎΡ‡Π΅ΠΌΡƒ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Β«Ρ€Π°Π½Π΄ΠΎΠΌΠ½ΠΎΡΡ‚ΡŒΒ» Π²ΠΎ врСмя RL-обучСния - ΠΈ ΠΊΠ°ΠΊ это чинится

🧠 ΠŸΠΎΡ‡Π΅ΠΌΡƒ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Β«Ρ€Π°Π½Π΄ΠΎΠΌΠ½ΠΎΡΡ‚ΡŒΒ» Π²ΠΎ врСмя RL-обучСния - ΠΈ ΠΊΠ°ΠΊ это чинится Новая Ρ€Π°Π±ΠΎΡ‚Π° Ρ€Π°Π·Π±ΠΈΡ€Π°Π΅Ρ‚, ΠΏΠΎΡ‡Π΅ΠΌΡƒ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π²ΠΎ врСмя RL для reasoning Ρ€ΡƒΡˆΠΈΡ‚ΡΡ энтропия (Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ исчСзаСт Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ²) - ΠΈ Ρ‡Ρ‚ΠΎ с этим Π΄Π΅Π»Π°Ρ‚ΡŒ. Π“Π»Π°Π²Π½Ρ‹Π΅ Π²Ρ‹Π²ΠΎΠ΄Ρ‹: - πŸ“‰ Π₯ΠΎΡ€ΠΎΡˆΠ΅Π³ΠΎ Π½Π°Π±ΠΎΡ€Π° Π² ~600 Π·Π°Π΄Π°Ρ‡ Ρ…Π²Π°Ρ‚Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄ΠΎΠ³Π½Π°Ρ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° 17 000. ΠšΠ»ΡŽΡ‡ - Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅, Π° Π½Π΅ Ρ€Π°Π·ΠΌΠ΅Ρ€ датасСта. - 🎯 Reward суТаСт модСль. ΠŸΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΎΠ½Π° Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡΡ‚ΡŒ нСсколько самых β€œΠΏΡ€ΠΈΠ±Ρ‹Π»ΡŒΠ½Ρ‹Ρ…β€ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² β†’ энтропия ΠΏΠ°Π΄Π°Π΅Ρ‚ β†’ исслСдованиС ΡƒΡ…ΡƒΠ΄ΡˆΠ°Π΅Ρ‚ΡΡ. - πŸ”„ МСньшС энтропии β†’ мСньшС разнообразия, Π½ΠΎ измСрСнная энтропия ΠΏΠΎ ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°ΠΌ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ с Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ. - βš™οΈ Адаптивный энтропийный рСгуляризатор ΡƒΠ΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Β«ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΠΎΡΡ‚ΡŒΒ» Π½Π° Ρ†Π΅Π»Π΅Π²ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅, ΠΏΡ€ΠΈ этом Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ расти. - πŸ§ͺ Off-policy обновлСния ΡƒΡΠΈΠ»ΠΈΠ²Π°ΡŽΡ‚ коллапс, ΠΏΠΎΠ΄Π½ΠΈΠΌΠ°ΡŽΡ‚ reward ΠΈ Π»ΠΎΠΌΠ°ΡŽΡ‚ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠ΅ β€” классичСский overfitting. - 🧩 НизкоС Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ускоряСт коллапс, Π½ΠΎ малСнький *Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹ΠΉ* датасСт ΠΈΠ½ΠΎΠ³Π΄Π° Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Ρ‚Π°ΠΊ ΠΆΠ΅ Ρ…ΠΎΡ€ΠΎΡˆΠΎ, ΠΊΠ°ΠΊ ΠΏΠΎΠ»Π½Ρ‹ΠΉ. - ?

🧠 ΠŸΠΎΡ‡Π΅ΠΌΡƒ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Β«Ρ€Π°Π½Π΄ΠΎΠΌΠ½ΠΎΡΡ‚ΡŒΒ» Π²ΠΎ врСмя RL-обучСния - ΠΈ ΠΊΠ°ΠΊ это чинится

Новая Ρ€Π°Π±ΠΎΡ‚Π° Ρ€Π°Π·Π±ΠΈΡ€Π°Π΅Ρ‚, ΠΏΠΎΡ‡Π΅ΠΌΡƒ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π²ΠΎ врСмя RL для reasoning Ρ€ΡƒΡˆΠΈΡ‚ΡΡ энтропия (Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ исчСзаСт Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ²) - ΠΈ Ρ‡Ρ‚ΠΎ с этим Π΄Π΅Π»Π°Ρ‚ΡŒ.

Π“Π»Π°Π²Π½Ρ‹Π΅ Π²Ρ‹Π²ΠΎΠ΄Ρ‹:

- πŸ“‰ Π₯ΠΎΡ€ΠΎΡˆΠ΅Π³ΠΎ Π½Π°Π±ΠΎΡ€Π° Π² ~600 Π·Π°Π΄Π°Ρ‡ Ρ…Π²Π°Ρ‚Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄ΠΎΠ³Π½Π°Ρ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° 17 000.

ΠšΠ»ΡŽΡ‡ - Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅, Π° Π½Π΅ Ρ€Π°Π·ΠΌΠ΅Ρ€ датасСта.

- 🎯 Reward суТаСт модСль.

ΠŸΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΎΠ½Π° Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡΡ‚ΡŒ нСсколько самых β€œΠΏΡ€ΠΈΠ±Ρ‹Π»ΡŒΠ½Ρ‹Ρ…β€ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² β†’ энтропия ΠΏΠ°Π΄Π°Π΅Ρ‚ β†’ исслСдованиС ΡƒΡ…ΡƒΠ΄ΡˆΠ°Π΅Ρ‚ΡΡ.

- πŸ”„ МСньшС энтропии β†’ мСньшС разнообразия, Π½ΠΎ измСрСнная энтропия ΠΏΠΎ ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°ΠΌ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ с Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ.

- βš™οΈ Адаптивный энтропийный рСгуляризатор ΡƒΠ΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Β«ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΠΎΡΡ‚ΡŒΒ» Π½Π° Ρ†Π΅Π»Π΅Π²ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅, ΠΏΡ€ΠΈ этом Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ расти.

- πŸ§ͺ Off-policy обновлСния ΡƒΡΠΈΠ»ΠΈΠ²Π°ΡŽΡ‚ коллапс, ΠΏΠΎΠ΄Π½ΠΈΠΌΠ°ΡŽΡ‚ reward ΠΈ Π»ΠΎΠΌΠ°ΡŽΡ‚ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠ΅ β€” классичСский overfitting.

- 🧩 НизкоС Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ускоряСт коллапс, Π½ΠΎ малСнький *Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹ΠΉ* датасСт ΠΈΠ½ΠΎΠ³Π΄Π° Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Ρ‚Π°ΠΊ ΠΆΠ΅ Ρ…ΠΎΡ€ΠΎΡˆΠΎ, ΠΊΠ°ΠΊ ΠΏΠΎΠ»Π½Ρ‹ΠΉ.

- πŸ”§ Клиппинг ΠΈ reweighting ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Ρ… advantage-Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Progressive Advantage Reweighting) ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ энтропиСй ΠΈ Π±ΠΎΡ€ΠΎΡ‚

arxiv.org/abs/2511.05993