πΌ SRPO β ΡΡΠΎ ΠΏΡΠΎΠ΅ΠΊΡ, ΡΠ΅Π°Π»ΠΈΠ·ΡΡΡΠΈΠΉ ΠΌΠ΅ΡΠΎΠ΄ Β«Semantic Relative Preference OptimizationΒ» Π΄Π»Ρ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΡΠ΅ΠΊΡΡ-Π²-ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Π½Π°ΠΏΡΠ°Π²Π»Π΅Π½Π½ΡΠΉ Π½Π° ΡΠΎ, ΡΡΠΎΠ±Ρ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ Π»ΡΡΡΠ΅ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΠΎΠ²Π°Π»ΠΈ ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΈΠΌ ΡΡΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠ΅Π½ΠΈΡΠΌ. π ΠΡΠ½ΠΎΠ²Π½ΡΠ΅ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ: π΅Π£Π»ΡΡΡΠ°Π΅Ρ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ Π·Π° ΡΡΡΡ ΡΠΎΠ³Π»Π°ΡΠΎΠ²Π°Π½ΠΈΡ Ρ ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΈΠΌΠΈ ΡΡΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠ΅Π½ΠΈΡΠΌΠΈ. π΅ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ ΠΌΠ΅ΡΠΎΠ΄ Semantic Relative Preference Optimization Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. π΅Π Π°Π±ΠΎΡΠ°Π΅Ρ Π±ΡΡΡΡΠ΅Π΅ ΠΌΠ½ΠΎΠ³ΠΈΡ
Π°Π½Π°Π»ΠΎΠ³ΠΈΡΠ½ΡΡ
ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ΠΎΠ² ΠΈ ΡΡΠ΅Π±ΡΠ΅Ρ ΠΌΠ΅Π½ΡΡΠ΅ Π΄Π°Π½Π½ΡΡ
. π΅Π£ΡΡΡΠ°Π½ΡΠ΅Ρ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΠ΅ Π°ΡΡΠ΅ΡΠ°ΠΊΡΡ ΠΈ ΠΏΠΎΠ²ΡΡΠ°Π΅Ρ ΡΠ΅Π°Π»ΠΈΠ·ΠΌ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ. π΅ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Π²ΠΊΠ»ΡΡΠ°Ρ FLUX. π΅Π‘Π½ΠΈΠΆΠ°Π΅Ρ ΡΠΈΡΠΊ Β«reward hackingΒ» ΠΈ ΠΏΠ΅ΡΠ΅ΡΡΠΈΠ»Π΅Π½ΠΈΡ ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΡ
Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΡ
ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ². π΅ΠΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΌΠ΅Π½ΡΡΡ ΡΡΠΈΠ»Ρ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΡΠ΅ΡΠ΅Π· ΠΏΡΠΎΠΌΠΏΡΡ. π± Π Π΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΠΉ β‘οΈΠ‘ΠΏΡΠ°Π²ΠΎΡΠ½ΠΈΠΊ ΠΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΡΠ°. ΠΠΎΠ΄ΠΏΠΈΡΠ°ΡΡΡΡ
πΌ SRPO β ΡΡΠΎ ΠΏΡΠΎΠ΅ΠΊΡ, ΡΠ΅Π°Π»ΠΈΠ·ΡΡΡΠΈΠΉ ΠΌΠ΅ΡΠΎΠ΄ Β«Semantic Relative Preference OptimizationΒ» Π΄Π»Ρ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΡΠ΅ΠΊΡΡ-Π²-ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Π½Π°ΠΏΡΠ°Π²Π»Π΅Π½Π½ΡΠΉ
28Β Π½ΠΎΡΠ±ΡΡΒ 202528Β Π½ΠΎΡΒ 2025
3
~1 ΠΌΠΈΠ½