9853 ΠΏΠΎΠ΄ΠΏΠΈΡΡΠΈΠΊΠ°
π OpenVLA: Open-Source Vision-Language-Action ΠΌΠΎΠ΄Π΅Π»ΠΈ.
OpenVLA - Π½Π°Π±ΠΎΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ 7ΠΌΠ»ΡΠ΄. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΡΠ΅Π΄Π½Π°Π·Π½Π°ΡΠ΅Π½Ρ Π΄Π»Ρ ΡΠ½ΠΈΠ²Π΅ΡΡΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ ΡΠΎΠ±ΠΎΡΠ°ΠΌΠΈ.
OpenVLA ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· ΠΊΠΎΠΌΠ±ΠΈΠ½Π°ΡΠΈΠΈ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΡ
ΡΠ½ΠΊΠΎΠ΄Π΅ΡΠΎΠ² SigLIP, DinoV2 ΠΈ ΡΠ·ΡΠΊΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Llama 2, Π²ΡΡΡΡΠΏΠ°ΡΡΠ΅ΠΉ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΎΡΠ½ΠΎΠ²Ρ. ΠΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠ»ΠΎΡΡ Π½Π° Π½Π°Π±ΠΎΡΠ΅ Π΄Π°Π½Π½ΡΡ
Open-X, ΠΊΠΎΡΠΎΡΡΠΉ ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· 970 ΡΡΡ. ΡΡΠ°Π΅ΠΊΡΠΎΡΠΈΠΉ ΠΌΠ°Π½ΠΈΠΏΡΠ»ΡΡΠΈΠΉ Π² ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ
ΡΡΠ΅Π΄Π°Ρ
.
ΠΠΎΠ΄Π΅Π»ΠΈ ΠΏΡΠΈΠ½ΠΈΠΌΠ°ΡΡ Π½Π° Π²Ρ
ΠΎΠ΄ ΡΠ·ΡΠΊΠΎΠ²ΡΡ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΡ ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΡΠ°Π±ΠΎΡΠ΅ΠΉ ΠΎΠ±Π»Π°ΡΡΠΈ Ρ ΠΊΠ°ΠΌΠ΅ΡΡ ΡΠΎΠ±ΠΎΡΠ°. ΠΠ°ΡΠ΅ΠΌ, OpenVLA ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·ΡΠ²Π°Π΅Ρ Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ Π΄Π΅ΠΉΡΡΠ²ΠΈΡ ΡΠΎΠ±ΠΎΡΠ°, ΡΠΎΡΡΠΎΡΡΠΈΠ΅ ΠΈΠ· 7-DoF Π΄Π΅Π»ΡΡ ΠΊΠΎΠ½Π΅ΡΠ½ΡΡ
ΡΡΡΠ΅ΠΊΡΠΎΡΠΎΠ² Π² Π²ΠΈΠ΄Π΅ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΠ½ΡΡ
ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ (x, y, z, roll, pitch, yaw, gripper).
ΠΠ»Ρ Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΈΡ Π½Π° ΡΠ΅Π°Π»ΡΠ½ΠΎΠΉ ΡΠΎΠ±ΠΎΡΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠΉ ΠΏΠ»Π°ΡΡΠΎΡΠΌΠ΅ Π΄Π΅ΠΉΡΡΠ²ΠΈΡ Π΄ΠΎΠ»ΠΆΠ½Ρ Π±ΡΡΡ Π΄Π΅-Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ Ρ ΡΡΠ΅ΡΠΎΠΌ ΡΡΠ°ΡΠΈΡΡΠΈΠΊΠΈ, Π²ΡΡΠΈΡΠ»ΡΠ΅ΠΌΠΎΠΉ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠΎΠ±ΠΎΡΠ° ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡΠ° Π΄Π°Π½Π½ΡΡ
.
OpenVLA Π³ΠΎΡΠΎΠ²Ρ ΠΊ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Π΄Π»Ρ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ ΡΠΎΠ±ΠΎΡΠ°ΠΌΠΈ Π² ΠΊΠΎΠΌΠ±ΠΈΠ½Π°ΡΠΈΡΡ
Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ ΠΈ ΠΎΠ±ΡΡΠ°Π½ΠΎΠ²ΠΊΠ°Ρ
, Π΅ΡΠ»ΠΈ ΠΎΠ½ΠΈ ΡΡ
ΠΎΠΆΠΈ Ρ Π΄Π΅ΠΉΡΡΠ²ΠΈΡΠΌΠΈ ΠΈ Π·Π°Π΄Π°ΡΠ°ΠΌΠΈ, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΡΠΈΡΡΡΡΡΠ²ΡΡΡ Π² Open-X (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π΄Π»Ρ ΡΡΠ΅Π΄ BridgeV2 Ρ ΡΠΎΠ±ΠΎΡΠΎΠΌ Widow-X).
ΠΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΡΠΌΠ΅ΡΡ ΡΠ°ΠΌΠΎΠΎΠ±ΡΡΠ°ΡΡΡΡ Π½Π° ΡΡΠ»ΠΎΠ²ΠΈΡΡ
, Π½Π΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½Π½ΡΡ
Π² ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ; Π΄Π»Ρ ΡΠ΅ΡΠ΅Π½ΠΈΡ ΡΠ°ΠΊΠΈΡ
ΡΠ»ΡΡΠ°Π΅Π² ΡΠ°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΈ ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΈΠ»ΠΈ ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΡΠ΅ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΈ ΠΏΠΎ ΡΠ°ΠΌΠΎΡΡΠΎΡΡΠ΅Π»ΡΠ½ΠΎΠΌΡ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Π½Π° Π²Π°ΡΠ΅ΠΌ Π½Π°Π±ΠΎΡΠ΅ Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠ°ΡΠΈΠΉ.
Π‘Π΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ OpenVLA ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· 5 ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΉ Π±Π°Π·ΠΎΠ²ΠΎΠΉ OpenVLA-7B:
π’openvla-7b-prismatic - Π°Π΄Π°ΠΏΡΠ°ΡΠΈΡ Π΄Π»Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Ρ Prismatic VLMs project codebase;
π’openvla-7b-finetuned-libero-spatial - - ΡΠ°ΠΉΠ½ΡΡΠ½ Ρ ΠΏΠΎΠΌΠΎΡΡΡ LoRA Π½Π° Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ LIBERO-Spatial Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ° LIBERO;
π’openvla-7b-finetuned-libero-object - ΡΠ°ΠΉΠ½ΡΡΠ½ Ρ ΠΏΠΎΠΌΠΎΡΡΡ LoRA Π½Π° Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ LIBERO-Object;
π’openvla/openvla-7b-finetuned-libero-10 - ΡΠ°ΠΉΠ½ΡΡΠ½ Ρ ΠΏΠΎΠΌΠΎΡΡΡ LoRA Π½Π° Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ LIBERO-10 (Long).
βΆοΈΠ£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ° :
# Create venv
conda create -n openvla python=3.10 -y
conda activate openvla
# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y
# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .
# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation
πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ : MIT License.
π‘Arxiv
π₯Github
#AI #ML #OpetVLA #Robotics
1 ΠΌΠΈΠ½ΡΡΠ°
7Β ΡΠ΅Π½ΡΡΠ±ΡΡ