Найти Ρ‚Π΅ΠΌΡƒ
9853 подписчика

🌟 OpenVLA: Open-Source Vision-Language-Action модСли.


OpenVLA - Π½Π°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ с 7ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Ρ‹ для ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ управлСния Ρ€ΠΎΠ±ΠΎΡ‚Π°ΠΌΠΈ.

OpenVLA состоит ΠΈΠ· ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… энкодСров SigLIP, DinoV2 ΠΈ языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ Llama 2, Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°ΡŽΡ‰Π΅ΠΉ Π² качСствС основы. ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π½Π° Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… Open-X, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ состоит ΠΈΠ· 970 тыс. Ρ‚Ρ€Π°Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΉ манипуляций Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… срСдах.

МодСли ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°ΡŽΡ‚ Π½Π° Π²Ρ…ΠΎΠ΄ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ ΠΈΠ½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡŽ ΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Ρ€Π°Π±ΠΎΡ‡Π΅ΠΉ области с ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹ Ρ€ΠΎΠ±ΠΎΡ‚Π°. Π—Π°Ρ‚Π΅ΠΌ, OpenVLA прСдсказываСт Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ дСйствия Ρ€ΠΎΠ±ΠΎΡ‚Π°, состоящиС ΠΈΠ· 7-DoF Π΄Π΅Π»ΡŒΡ‚ ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹Ρ… эффСкторов Π² Π²ΠΈΠ΄Π΅ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π½Ρ‹Ρ… ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ (x, y, z, roll, pitch, yaw, gripper).

Для выполнСния Π½Π° Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ Ρ€ΠΎΠ±ΠΎΡ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ΅ дСйствия Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ Π΄Π΅-Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ‹ с ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ статистики, вычисляСмой для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ€ΠΎΠ±ΠΎΡ‚Π° ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ….

OpenVLA Π³ΠΎΡ‚ΠΎΠ²Ρ‹ ΠΊ использованию для управлСния Ρ€ΠΎΠ±ΠΎΡ‚Π°ΠΌΠΈ Π² комбинациях дСйствий ΠΈ обстановках, Ссли ΠΎΠ½ΠΈ схоТи с дСйствиями ΠΈ Π·Π°Π΄Π°Ρ‡Π°ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‚ Π² Open-X (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, для срСд BridgeV2 с Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠΌ Widow-X).

МодСли Π½Π΅ ΡƒΠΌΠ΅ΡŽΡ‚ ΡΠ°ΠΌΠΎΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒΡΡ Π½Π° условиях, Π½Π΅ прСдставлСнных Π² ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ; для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Ρ‚Π°ΠΊΠΈΡ… случаСв Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΠ»ΠΈ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Ρ‹Π΅ инструкции ΠΏΠΎ ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ Π½Π° вашСм Π½Π°Π±ΠΎΡ€Π΅ дСмонстраций.

БСмСйство OpenVLA состоит ΠΈΠ· 5 ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ Π±Π°Π·ΠΎΠ²ΠΎΠΉ OpenVLA-7B:

🟒openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟒openvla-7b-finetuned-libero-spatial - - Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ LoRA Π½Π° датасСтС LIBERO-Spatial Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ° LIBERO;

🟒openvla-7b-finetuned-libero-object - Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ LoRA Π½Π° датасСтС LIBERO-Object;

🟒openvla/openvla-7b-finetuned-libero-10 - Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ LoRA Π½Π° датасСтС LIBERO-10 (Long).

▢️Установка :

# Create venv
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation

πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : MIT License.

🟑Arxiv
πŸ–₯Github


#AI #ML #OpetVLA #Robotics
1 ΠΌΠΈΠ½ΡƒΡ‚Π°