Найти Ρ‚Π΅ΠΌΡƒ
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

πŸ€–ΠšΠ°ΠΊ Π·Π°ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Ρ€ΠΎΠ±ΠΎΡ‚Π° Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ: Π½ΠΎΠ²ΠΎΠ΅ исслСдованиС ΠΎΡ‚ Google AI

НСсмотря Π½Π° прогрСсс Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠ², ΠΈΠΌ Π΄ΠΎ сих ΠΏΠΎΡ€ слоТно Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ подходящСС дСйствиС ΠΏΡ€ΠΈ ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠ΅ ΠΈΠΌΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚ΠΎΡ‡Π½ΠΎΠ΅ ΠΈΠ»ΠΈ слоТноС ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ±ΡƒΠ΄ΠΈΡ‚ΡŒ Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠ² Π±Ρ‹Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ Ρ€Π΅ΡˆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ, исслСдоватСли часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ дискрСтноС пространство дСйствий, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ заставляСт Ρ€ΠΎΠ±ΠΎΡ‚Π° Π²Ρ‹Π±ΠΈΡ€Π°Ρ‚ΡŒ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ A ΠΈΠ»ΠΈ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ B, Π½Π΅ колСблясь ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π΄ΠΈΡΠΊΡ€Π΅Ρ‚Π½ΠΎΡΡ‚ΡŒ Π±Ρ‹Π»Π° ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌ элСмСнтом Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Transporter Networks ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΈΠ³Ρ€ΠΎΠ²Ρ‹Ρ… Π°Π³Π΅Π½Ρ‚ΠΎΠ²: AlphaGo, AlphaStar ΠΈ Π±ΠΎΡ‚ Dota OpenAI. Но дискрСтизация ΠΈΠΌΠ΅Π΅Ρ‚ свои ограничСния - для Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π² пространствСнно-Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½ΠΎΠΌ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ ΠΌΠΈΡ€Π΅, Π΅ΡΡ‚ΡŒ ΠΊΠ°ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ Π΄Π²Π° нСдостатка дискрСтизации: ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ запускаСт проклятиС размСрности, увСличивая трСбования ΠΊ памяти. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π² области CV Π½Π΅Π΄Π°Π²Π½ΠΈΠΉ прогрСсс Π±Ρ‹Π» обСспСчСн Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½Ρ‹ΠΌΠΈ, Π° Π½Π΅ дискрСтными прСдставлСниями.

Π§Ρ‚ΠΎΠ±Ρ‹ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ ΠΏΠΎΠ»ΠΈΡ‚ΠΈΠΊΠΈ принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π±Π΅Π· нСдостатков дискрСтизации, исслСдоватСли Google AI Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π»ΠΈ open-source ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ Implicit Behavioral Cloning. Implicit BC прСдставляСт собой Π½ΠΎΠ²Ρ‹ΠΉ простой ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ ΠΈΠΌΠΈΡ‚Π°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΈ Π±Ρ‹Π» прСдставлСн Π½Π° CoRL 2021. По сути, ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ - это Ρ‚ΠΈΠΏ клонирования повСдСния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, являСтся для Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠ² самым простым способом ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ Π½Π°Π²Ρ‹ΠΊΠΈ Π½Π° дСмонстрациях. ΠŸΡ€ΠΈ ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ повСдСния Π°Π³Π΅Π½Ρ‚ учится ΠΈΠΌΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ экспСрта с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стандартного обучСния с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎ ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ повСдСния Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ явной Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти, которая ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ наблюдСния ΠΈ Π²Ρ‹Π²ΠΎΠ΄ΠΈΡ‚ дСйствия экспСртов. ΠšΠ»ΡŽΡ‡Π΅Π²Π°Ρ идСя Implicit BC состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ вмСсто этого ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΡƒΡŽ ΡΠ΅Ρ‚ΡŒ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ ΠΊΠ°ΠΊ наблюдСния, Ρ‚Π°ΠΊ ΠΈ дСйствия, ΠΈ Π²Ρ‹Π²ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΎΠ΄Π½ΠΎ число, Π½ΠΈΠ·ΠΊΠΎΠ΅ для дСйствий экспСрта ΠΈ высокоС для дСйствий Π½Π΅ экспСрта (Π²Π½ΠΈΠ·Ρƒ справа), прСвращая повСдСнчСскоС ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ Π² ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° энСргСтичСского модСлирования. ПослС обучСния ΠΏΠΎΠ»ΠΈΡ‚ΠΈΠΊΠ° Implicit BC Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ дСйствия, находя Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ дСйствия с наимСньшСй ΠΎΡ†Π΅Π½ΠΊΠΎΠΉ для Π΄Π°Π½Π½ΠΎΠ³ΠΎ наблюдСния.

Implicit BC достигаСт Ρ…ΠΎΡ€ΠΎΡˆΠΈΡ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² ΠΊΠ°ΠΊ Π² ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… тСстовых Π·Π°Π΄Π°Ρ‡Π°Ρ…, Ρ‚Π°ΠΊ ΠΈ Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… Ρ€ΠΎΠ±ΠΎΡ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ…, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΡ… Ρ‚ΠΎΡ‡Π½ΠΎΠ³ΠΎ ΠΈ Ρ€Π΅ΡˆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ повСдСния. Π­Ρ‚ΠΎ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² сСбя достиТСниС самых соврСмСнных Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² (SOTA) Π² Π·Π°Π΄Π°Ρ‡Π°Ρ…, выполняСмых Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ-экспСртом ΠΈΠ· Π½Π΅Π΄Π°Π²Π½Π΅Π³ΠΎ эталонного тСста нашСй ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹ для Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠ³ΠΎ обучСния с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ, D4RL. Π’ ΡˆΠ΅ΡΡ‚ΠΈ ΠΈΠ· сСми ΠΈΠ· этих Π·Π°Π΄Π°Ρ‡ Implicit BC прСвосходит Π»ΡƒΡ‡ΡˆΠΈΠΉ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ для Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠ³ΠΎ RL - ΠšΠΎΠ½ΡΠ΅Ρ€Π²Π°Ρ‚ΠΈΠ²Π½ΠΎΠ΅ Q Learning. Π˜Π½Ρ‚Π΅Ρ€Π΅ΡΠ½ΠΎ, Ρ‡Ρ‚ΠΎ Implicit BC достигаСт этих Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Π½Π΅ трСбуя Π½ΠΈΠΊΠ°ΠΊΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Π²ΠΎΠ·Π½Π°Π³Ρ€Π°ΠΆΠ΄Π΅Π½ΠΈΠΈ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ простоС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ, Π° Π½Π΅ Π±ΠΎΠ»Π΅Π΅ слоТноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ.

https://ai.googleblog.com/2021/11/decisiveness-in-imitation-learning-for.html

https://github.com/google-research/ibc

Machinelearning