Найти Π² Π”Π·Π΅Π½Π΅
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

🌟 GUI-Libra: Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ обучСния VLM-Π°Π³Π΅Π½Ρ‚ΠΎΠ² Π·Π°Π΄Π°Ρ‡Π°ΠΌ управлСния интСрфСйсами

Microsoft, UIUC ΠΈ UNC-Chapel Hill Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ систСму дообучСния VL-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ для Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠ³ΠΎ управлСния графичСскими интСрфСйсами. Авторы ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ»ΠΈ 2 систСмных изъяна Π² ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°Ρ… обучСния GUI-Π°Π³Π΅Π½Ρ‚ΠΎΠ²: CΡ‚Π°Π½Π΄Π°Ρ€Ρ‚Π½Ρ‹ΠΉ SFT с Π΄Π»ΠΈΠ½Π½Ρ‹ΠΌΠΈ CoT ΡƒΡ…ΡƒΠ΄ΡˆΠ°Π΅Ρ‚ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ (Ρ‡Π΅ΠΌ Π΄Π»ΠΈΠ½Π½Π΅Π΅ рассуТдСниС, Ρ‚Π΅ΠΌ Ρ…ΡƒΠΆΠ΅ модСль ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Π² Π½ΡƒΠΆΠ½Ρ‹ΠΉ элСмСнт интСрфСйса). ПошаговоС RLVR-ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π΅ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ GUI-срСда частично Π²Π΅Ρ€ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΠ΅ΠΌΠ°. На ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС сущСствуСт нСсколько ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… дСйствий, Π½ΠΎ датасСт фиксируСт Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎ. Как Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ - Π·Π° Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅, Π½ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ дСйствия модСль ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ ΡˆΡ‚Ρ€Π°Ρ„. 🟑 Для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ Action-Aware SFT ΠœΠ΅Ρ‚ΠΎΠ΄ ΡΠΌΠ΅ΡˆΠΈΠ²Π°Π΅Ρ‚ Π΄Π°Π½Π½Ρ‹Π΅ с рассуТдСниями ΠΈ Π±Π΅Π· Π½ΠΈΡ…, Π° Π·Π°Ρ‚Π΅ΠΌ ΠΏΠ΅Ρ€Π΅Π²Π·Π²Π΅ΡˆΠΈΠ²Π°Π΅Ρ‚ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹: action- ΠΈ grounding-Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ больший вСс Π² лосс-Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, Ρ‡Π΅ΠΌ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ рассуТдСний. Π­Ρ‚ΠΎ позволяСт ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΊ CoT, Π½Π΅ ТСртвуя Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ ΠΊΠ»ΠΈΠΊΠ°. πŸŸ‘Π”Π»Ρ Π²Ρ‚ΠΎΡ€ΠΎΠΉ - Conservative RL Π½Π° Π±Π°Π·Π΅ GRPO с двумя дополнСниями. KL-рСгуляризаци

🌟 GUI-Libra: Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ обучСния VLM-Π°Π³Π΅Π½Ρ‚ΠΎΠ² Π·Π°Π΄Π°Ρ‡Π°ΠΌ управлСния интСрфСйсами.

Microsoft, UIUC ΠΈ UNC-Chapel Hill Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ систСму дообучСния VL-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ для Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠ³ΠΎ управлСния графичСскими интСрфСйсами.

Авторы ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ»ΠΈ 2 систСмных изъяна Π² ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°Ρ… обучСния GUI-Π°Π³Π΅Π½Ρ‚ΠΎΠ²:

CΡ‚Π°Π½Π΄Π°Ρ€Ρ‚Π½Ρ‹ΠΉ SFT с Π΄Π»ΠΈΠ½Π½Ρ‹ΠΌΠΈ CoT ΡƒΡ…ΡƒΠ΄ΡˆΠ°Π΅Ρ‚ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ (Ρ‡Π΅ΠΌ Π΄Π»ΠΈΠ½Π½Π΅Π΅ рассуТдСниС, Ρ‚Π΅ΠΌ Ρ…ΡƒΠΆΠ΅ модСль ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Π² Π½ΡƒΠΆΠ½Ρ‹ΠΉ элСмСнт интСрфСйса).

ПошаговоС RLVR-ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π΅ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ GUI-срСда частично Π²Π΅Ρ€ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΠ΅ΠΌΠ°. На ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС сущСствуСт нСсколько ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… дСйствий, Π½ΠΎ датасСт фиксируСт Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎ. Как Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ - Π·Π° Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅, Π½ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ дСйствия модСль ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ ΡˆΡ‚Ρ€Π°Ρ„.

🟑 Для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ Action-Aware SFT

ΠœΠ΅Ρ‚ΠΎΠ΄ ΡΠΌΠ΅ΡˆΠΈΠ²Π°Π΅Ρ‚ Π΄Π°Π½Π½Ρ‹Π΅ с рассуТдСниями ΠΈ Π±Π΅Π· Π½ΠΈΡ…, Π° Π·Π°Ρ‚Π΅ΠΌ ΠΏΠ΅Ρ€Π΅Π²Π·Π²Π΅ΡˆΠΈΠ²Π°Π΅Ρ‚ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹: action- ΠΈ grounding-Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ больший вСс Π² лосс-Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, Ρ‡Π΅ΠΌ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ рассуТдСний. Π­Ρ‚ΠΎ позволяСт ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΊ CoT, Π½Π΅ ТСртвуя Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ ΠΊΠ»ΠΈΠΊΠ°.

πŸŸ‘Π”Π»Ρ Π²Ρ‚ΠΎΡ€ΠΎΠΉ - Conservative RL Π½Π° Π±Π°Π·Π΅ GRPO с двумя дополнСниями.

KL-рСгуляризация ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ Π΄Ρ€Π΅ΠΉΡ„ ΠΏΠΎΠ»ΠΈΡ‚ΠΈΠΊΠΈ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ рСфСрСнсной ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‡Ρ‚ΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡŽ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΡ„Π»Π°ΠΉΠ½- ΠΈ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌΠΈ. Success-Adaptive Negative Gradient Scaling динамичСски сниТаСт вСс ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π² зависимости ΠΎΡ‚ Π΄ΠΎΠ»ΠΈ ΡƒΡΠΏΠ΅ΡˆΠ½Ρ‹Ρ… дСйствий Π² Π³Ρ€ΡƒΠΏΠΏΠ΅ GRPO-сэмплов. Π­Ρ‚ΠΎ Π·Π°Ρ‰ΠΈΡ‰Π°Π΅Ρ‚ ΠΎΡ‚ ΡˆΡ‚Ρ€Π°Ρ„ΠΎΠ²Π°Π½ΠΈΡ Π²Π°Π»ΠΈΠ΄Π½Ρ‹Ρ…, Π½ΠΎ Π½Π΅ Π·Π°Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… дСйствий.

πŸŸ‘Π”Π»Ρ Ρ‚Ρ€Π΅ΠΉΠ½Π° собрали датасСт GUI-Libra-81K.

Он содСрТит большС Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° рассуТдСниС: Π² срСднСм 210 Π½Π° шаг ΠΏΡ€ΠΎΡ‚ΠΈΠ² 85 Ρƒ AGUVIS Stage 2 L3 ΠΈ 0 Ρƒ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Ρ….

Π’Π½ΡƒΡ‚Ρ€ΠΈ - ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ Π½Π°Π±ΠΎΡ€Ρ‹, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ GPT-4.1 дописывал ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Ρ‹Π΅ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³-трассы. Π€ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Π»ΠΈ Π² Π΄Π²Π° этапа: отсСв шагов с Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ воспроизвСдСния Π½ΠΈΠΆΠ΅ 0.3 Ρ‡Π΅Ρ€Π΅Π· Qwen3-VL-8B ΠΈ вСрификация ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚ Ρ‡Π΅Ρ€Π΅Π· bounding-box ΠΎΡ‚ Qwen3-VL-32B.

πŸŸ‘Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

ВСстовая GUI-Libra-3B ΡƒΠ»ΡƒΡ‡ΡˆΠΈΠ»Π° Π±Π°Π·ΠΎΠ²ΡƒΡŽ Qwen2.5-VL-3B Π½Π° +15.6% ΠΏΠΎ Pass@1 Π½Π° AndroidControl-v2 ΠΈ с 3.5 Π΄ΠΎ 25.2 Π½Π° AndroidWorld.

GUI-Libra-4B/8B Π½Π° AndroidWorld Π²Ρ‹Π±ΠΈΠ»Π° 42.6 (это ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΆΠ΅, сколько GPT-4o + UGround ΠΏΡ€ΠΈ использовании Π΄Π²ΡƒΡ… ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… VLM-ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ.

ВСса всСх ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒΡŽ 3, 4, 7 ΠΈ 8 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Ρ†Π΅Π»Π΅Π²ΠΎΠΉ датасСт ΠΈ ΠΊΠΎΠ΄ обучСния Π²Ρ‹Π»ΠΎΠΆΠ΅Π½Ρ‹ Π² ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΉ доступ.

πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.

πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°

πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

🟑Arxiv

πŸŸ‘ΠΠ°Π±ΠΎΡ€ датасСтов

πŸ–₯GitHub

@machinelearning

#AI #ML #VLM #GUILibra #Microsoft

-2
-3
-4