Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π² ΠΊΠΎΡ€Π·ΠΈΠ½ΡƒΠŸΠΎΠ·Π²ΠΎΠ½ΠΈΡ‚ΡŒ
Найти Π² Π”Π·Π΅Π½Π΅
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

🌟 WildDet3D: открытая модСль монокулярной 3D-Π΄Π΅Ρ‚Π΅ΠΊΡ†ΠΈΠΈ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ снимку

Π˜Π½ΡΡ‚ΠΈΡ‚ΡƒΡ‚ АллСна прСдставил модСль WildDet3D, которая ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ строит 3D-Ρ€Π°ΠΌΠΊΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²: ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ ΠΈΡ… ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅, Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΈ ΠΎΡ€ΠΈΠ΅Π½Ρ‚Π°Ρ†ΠΈΡŽ Π² мСтричСских ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°Ρ…. МодСль ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ сразу нСсколько Ρ‚ΠΈΠΏΠΎΠ² ΠΏΡ€ΠΎΠΌΠΏΡ‚ΠΎΠ²: тСкстовый запрос, ΠΊΠ»ΠΈΠΊ ΠΏΠΎ Ρ‚ΠΎΡ‡ΠΊΠ΅ ΠΈΠ»ΠΈ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ 2D-бокс ΠΎΡ‚ внСшнСго Π΄Π΅Ρ‚Π΅ΠΊΡ‚ΠΎΡ€Π°. πŸŸ‘ΠΡ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° состоит ΠΈΠ· 3 Π±Π»ΠΎΠΊΠΎΠ² 2D-Π΄Π΅Ρ‚Π΅ΠΊΡ‚ΠΎΡ€ построСн Π½Π° SAM3 ΠΈ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ всС Ρ‚ΠΈΠΏΡ‹ запросов. ГСомСтричСская Π²Π΅Ρ‚ΠΊΠ° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ энкодСр DINOv2 с ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌΡ‹ΠΌ Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€ΠΎΠΌ Π³Π»ΡƒΠ±ΠΈΠ½Ρ‹, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌ Π³Π΅ΠΎΠΌΠ΅Ρ‚Ρ€ΠΈΡŽ ΠΎΠ±Π·ΠΎΡ€Π°: направлСния Π»ΡƒΡ‡Π΅ΠΉ ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹ Π·Π°ΡˆΠΈΠ²Π°ΡŽΡ‚ΡΡ Ρ‡Π΅Ρ€Π΅Π· сфСричСскиС Π³Π°Ρ€ΠΌΠΎΠ½ΠΈΠΊΠΈ, Ρ‡Ρ‚ΠΎ снимаСт Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ΅. Π’Ρ€Π΅Ρ‚ΠΈΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚, 3D-head, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Ρ‡Π΅Ρ€Π΅Π· кросс-Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ 2D-Π΄Π΅Ρ‚Π΅ΠΊΡ†ΠΈΠΈ с ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ Π³Π»ΡƒΠ±ΠΈΠ½Ρ‹ ΠΈ ΠΏΠΎΠ΄Π½ΠΈΠΌΠ°Π΅Ρ‚ ΠΈΡ… Π² ΠΏΠΎΠ»Π½ΠΎΡ†Π΅Π½Π½Ρ‹Π΅ 3D-боксы. Если Π½Π° инфСрСнсС доступны Π΄Π°Π½Π½Ρ‹Π΅ с LiDAR, ToF ΠΈΠ»ΠΈ стСрСокамСры, ΠΎΠ½ΠΈ ΠΏΠΎΠ΄ΠΌΠ΅ΡˆΠΈΠ²Π°ΡŽΡ‚ΡΡ Π² Ρ‚Ρƒ ΠΆΠ΅ Π³Π΅ΠΎΠΌΠ΅Ρ‚Ρ€ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π²Π΅Ρ‚ΠΊΡƒ Π±Π΅Π· пСрСобучСния. πŸŸ‘Π’Π΅ΡΡ‚Ρ‹ На Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ Omni3D модСль ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 34,2 AP с тСкстовыми ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°ΠΌΠΈ (это +5,8 ΠΏΡƒΠ½ΠΊΡ‚Π° ΠΊ ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΌΡƒ Π»ΠΈΠ΄Π΅Ρ€Ρƒ 3D-

🌟 WildDet3D: открытая модСль монокулярной 3D-Π΄Π΅Ρ‚Π΅ΠΊΡ†ΠΈΠΈ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ снимку.

Π˜Π½ΡΡ‚ΠΈΡ‚ΡƒΡ‚ АллСна прСдставил модСль WildDet3D, которая ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ строит 3D-Ρ€Π°ΠΌΠΊΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²: ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ ΠΈΡ… ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅, Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΈ ΠΎΡ€ΠΈΠ΅Π½Ρ‚Π°Ρ†ΠΈΡŽ Π² мСтричСских ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°Ρ….

МодСль ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ сразу нСсколько Ρ‚ΠΈΠΏΠΎΠ² ΠΏΡ€ΠΎΠΌΠΏΡ‚ΠΎΠ²: тСкстовый запрос, ΠΊΠ»ΠΈΠΊ ΠΏΠΎ Ρ‚ΠΎΡ‡ΠΊΠ΅ ΠΈΠ»ΠΈ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ 2D-бокс ΠΎΡ‚ внСшнСго Π΄Π΅Ρ‚Π΅ΠΊΡ‚ΠΎΡ€Π°.

πŸŸ‘ΠΡ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° состоит ΠΈΠ· 3 Π±Π»ΠΎΠΊΠΎΠ²

2D-Π΄Π΅Ρ‚Π΅ΠΊΡ‚ΠΎΡ€ построСн Π½Π° SAM3 ΠΈ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ всС Ρ‚ΠΈΠΏΡ‹ запросов.

ГСомСтричСская Π²Π΅Ρ‚ΠΊΠ° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ энкодСр DINOv2 с ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌΡ‹ΠΌ Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€ΠΎΠΌ Π³Π»ΡƒΠ±ΠΈΠ½Ρ‹, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌ Π³Π΅ΠΎΠΌΠ΅Ρ‚Ρ€ΠΈΡŽ ΠΎΠ±Π·ΠΎΡ€Π°: направлСния Π»ΡƒΡ‡Π΅ΠΉ ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹ Π·Π°ΡˆΠΈΠ²Π°ΡŽΡ‚ΡΡ Ρ‡Π΅Ρ€Π΅Π· сфСричСскиС Π³Π°Ρ€ΠΌΠΎΠ½ΠΈΠΊΠΈ, Ρ‡Ρ‚ΠΎ снимаСт Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ΅.

Π’Ρ€Π΅Ρ‚ΠΈΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚, 3D-head, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Ρ‡Π΅Ρ€Π΅Π· кросс-Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ 2D-Π΄Π΅Ρ‚Π΅ΠΊΡ†ΠΈΠΈ с ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ Π³Π»ΡƒΠ±ΠΈΠ½Ρ‹ ΠΈ ΠΏΠΎΠ΄Π½ΠΈΠΌΠ°Π΅Ρ‚ ΠΈΡ… Π² ΠΏΠΎΠ»Π½ΠΎΡ†Π΅Π½Π½Ρ‹Π΅ 3D-боксы.

Если Π½Π° инфСрСнсС доступны Π΄Π°Π½Π½Ρ‹Π΅ с LiDAR, ToF ΠΈΠ»ΠΈ стСрСокамСры, ΠΎΠ½ΠΈ ΠΏΠΎΠ΄ΠΌΠ΅ΡˆΠΈΠ²Π°ΡŽΡ‚ΡΡ Π² Ρ‚Ρƒ ΠΆΠ΅ Π³Π΅ΠΎΠΌΠ΅Ρ‚Ρ€ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π²Π΅Ρ‚ΠΊΡƒ Π±Π΅Π· пСрСобучСния.

πŸŸ‘Π’Π΅ΡΡ‚Ρ‹

На Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ Omni3D модСль ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 34,2 AP с тСкстовыми ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°ΠΌΠΈ (это +5,8 ΠΏΡƒΠ½ΠΊΡ‚Π° ΠΊ ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΌΡƒ Π»ΠΈΠ΄Π΅Ρ€Ρƒ 3D-MOOD).

На zero-shot пСрСносС Π½Π° Argoverse 2 WildDet3D практичСски ΡƒΠ΄Π²Π°ΠΈΠ²Π°Π΅Ρ‚ ΠΏΡ€Π΅ΠΆΠ½ΠΈΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚: 40,3 ODS ΠΏΡ€ΠΎΡ‚ΠΈΠ² 23,8.

На Ρ€Π΅Π΄ΠΊΠΈΡ… катСгориях ΠΈΠ· собствСнного Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ° WildDet3D-Bench успСхи, разумССтся, Π΅Ρ‰Π΅ Π»ΡƒΡ‡ΡˆΠ΅ - 47,4 AP ΠΏΡ€ΠΎΡ‚ΠΈΠ² 2,4 Ρƒ 3D-MOOD.

πŸŸ‘Π’ΠΌΠ΅ΡΡ‚Π΅ с модСлью Π²Ρ‹ΡˆΠ»ΠΎ Π΄Π΅ΠΌΠΎ-ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ для iOS.

Оно ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π²ΠΈΠ΄Π΅ΠΎΠΏΠΎΡ‚ΠΎΠΊ с ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹ iPhone ΠΈ Π΄Π°Π½Π½Ρ‹Π΅ LiDAR-сСнсора, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ ΠΎΡ‚Ρ€ΠΈΡΠΎΠ²Ρ‹Π²Π°Ρ‚ΡŒ 3D-боксы ΠΏΠΎΠ²Π΅Ρ€Ρ… сцСны ΠΊΠ°ΠΊ AR-ΠΎΠ²Π΅Ρ€Π»Π΅ΠΉ.

Π­Ρ‚ΠΎ наглядная дСмонстрация Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ монокулярная модСль усиливаСтся, ΠΊΠΎΠ³Π΄Π° устройство ΡƒΠΌΠ΅Π΅Ρ‚ ΠΎΡ‚Π΄Π°Π²Π°Ρ‚ΡŒ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ сигнал Π³Π»ΡƒΠ±ΠΈΠ½Ρ‹.

πŸŸ‘Π’Ρ€Π΅Ρ‚ΡŒΡ Ρ‡Π°ΡΡ‚ΡŒ Ρ€Π΅Π»ΠΈΠ·Π° - датасСт WildDet3D-Data.

Π‘ΠΎΠ»Π΅Π΅ 1 ΠΌΠ»Π½. ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ 3,7 ΠΌΠ»Π½. Π²Π΅Ρ€ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… 3D-Π°Π½Π½ΠΎΡ‚Π°Ρ†ΠΈΠΉ, ΠΎΡ…Π²Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΡΠ²Ρ‹ΡˆΠ΅ 13 тыс. ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². По сцСнам распрСдСлСниС ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΎΡΡŒ Ρ‚Π°ΠΊΠΎΠ΅: 52% ΠΏΠΎΠΌΠ΅Ρ‰Π΅Π½ΠΈΠΉ, 32% городской срСды ΠΈ 15% ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹.

Он собран Π½Π° основС 2D-Π½Π°Π±ΠΎΡ€ΠΎΠ² (COCO, LVIS, Objects365, V3Det): ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ‚Ρ‹ Π² 3D-боксы Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Π»ΠΈΡΡŒ 5 нСзависимыми ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Π³Π΅ΠΎΠΌΠ΅Ρ‚Ρ€ΠΈΠΈ, Π·Π°Ρ‚Π΅ΠΌ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Π»ΠΈΡΡŒ, ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΠ»ΠΈΡΡŒ VLM ΠΈ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±ΠΈΡ€Π°Π»ΠΈΡΡŒ людьми.

πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ

🟑МодСль

πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚

🟑Demo

πŸ–₯GitHub

#AI #ML #CV #Detection #WildDet3D #Ai2

-2
-3