10,3 ΡΡΡ ΠΏΠΎΠ΄ΠΏΠΈΡΡΠΈΠΊΠΎΠ²
π ICRT : ΠΠ½ΡΡΡΠΈΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ½ΠΎΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΈΠΌΠΈΡΠ°ΡΠΈΠΈ Π΄Π΅ΠΉΡΡΠ²ΠΈΡ Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΡ ΡΠ»Π΅Π΄ΡΡΡΠ΅Π³ΠΎ ΡΠΎΠΊΠ΅Π½Π°.
In-Context Robot Transformer (ICRT) - ΠΌΠΎΠ΄Π΅Π»Ρ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΠΎΠ±ΠΎΡΡ Π²ΡΠΏΠΎΠ»Π½ΡΡΡ Π½ΠΎΠ²ΡΠ΅ Π·Π°Π΄Π°ΡΠΈ, ΠΈΠ½ΡΠ΅ΡΠΏΡΠ΅ΡΠΈΡΡΡ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ½ΡΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ, ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»Π΅Π½Π½ΡΡ Π²ΠΎ Π²ΡΠ΅ΠΌΡ Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠ°ΡΠΈΠΎΠ½Π½ΠΎΠΉ ΡΠ°Π·Ρ, Π±Π΅Π· ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΏΠΎΠ»ΠΈΡΠΈΠΊΠΈ.
ICRT ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΡΠΎΠ±ΠΎΠΉ ΠΏΡΠΈΡΠΈΠ½Π½ΠΎ-ΡΠ»Π΅Π΄ΡΡΠ²Π΅Π½Π½ΡΠΉ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅Ρ, ΠΊΠΎΡΠΎΡΡΠΉ Π²ΡΠΏΠΎΠ»Π½ΡΠ΅Ρ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ ΠΏΡΠΎΠ³Π½ΠΎΠ· ΡΠ΅Π½ΡΠΎΠΌΠΎΡΠΎΡΠ½ΡΡ
ΡΡΠ°Π΅ΠΊΡΠΎΡΠΈΠΉ Π±Π΅Π· ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Π»ΠΈΠ½Π³Π²ΠΈΡΡΠΈΡΠ΅ΡΠΊΠΈΡ
Π΄Π°Π½Π½ΡΡ
ΠΈΠ»ΠΈ ΡΡΠ½ΠΊΡΠΈΠΈ Π²ΠΎΠ·Π½Π°Π³ΡΠ°ΠΆΠ΄Π΅Π½ΠΈΡ. ΠΠ½ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π³ΠΈΠ±ΠΊΠΎ ΠΈ Π±Π΅Π· ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Π²ΡΠΏΠΎΠ»Π½ΡΡΡ Π½ΠΎΠ²ΡΠ΅ Π·Π°Π΄Π°ΡΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΠΉ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ ΠΈ ΡΠΎΡΡΠΎΡΠ½ΠΈΠΉ, ΡΠΎΠ±ΡΠ°Π½Π½ΡΡ
Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΠ΅Π»Π΅ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΉ ΡΠ΅Π»ΠΎΠ²Π΅ΠΊΠ°.
ΠΠΎΠ΄Π΅Π»Ρ ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· ΡΡΠ΅Ρ
ΡΠ°ΡΡΠ΅ΠΉ: ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΎΠ±ΡΡΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄ΠΈΡΠΎΠ²ΡΠΈΠΊΠ° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, ΡΠ΅ΡΠΈΠΈ ΠΏΡΠΎΠ΅ΠΊΡΠΎΡΠΎΠ² Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· Π²Ρ
ΠΎΠ΄Π½ΡΡ
ΠΌΠΎΠ΄Π°Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ ΠΈ ΠΊΠ°ΡΠ·Π°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠ°:
π ΠΠΎΠ΄ΠΈΡΠΎΠ²ΡΠΈΠΊ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°Π΅Ρ ΡΠ°Π·Π½ΠΎΠΏΠ»Π°Π½ΠΎΠ²ΡΠ΅ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΡ ΡΠ΅ΡΠ΅Π· ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅Ρ, ΠΊΠΎΡΠΎΡΡΠΉ Π±ΡΠ» ΠΎΠ±ΡΡΠ΅Π½ Π½Π° ΡΠΌΠ΅ΡΠΈ Π΄Π°Π½Π½ΡΡ
ImageNet ΠΈ Open X-Embodiment
π ΠΡΠΎΠ΅ΠΊΡΠΎΡΡ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΡΡΡ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΡ, ΡΠΎΡΡΠΎΡΠ½ΠΈΠ΅ ΡΠΎΠ±ΠΎΡΠ° ΠΈ Π΄Π΅ΠΉΡΡΠ²ΠΈΡ Π² ΠΎΠ±ΡΠ΅Π΅ Π»Π°ΡΠ΅Π½ΡΠ½ΠΎΠ΅ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²ΠΎ Π΄Π»Ρ ΠΏΠΎΡΠ»Π΅Π΄ΡΡΡΠ΅Π³ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈΡΠΎΠ²Π°Π½ΠΈΡ
π Π’ΡΠ°Π½ΡΡΠΎΡΠΌΠ΅Ρ ΠΏΡΠΈΠ½ΠΈΠΌΠ°Π΅Ρ Π½Π° Π²Ρ
ΠΎΠ΄ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡ ΡΠΎΠΊΠ΅Π½ΠΎΠ², ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΡΡΠΈΡ
ΡΠΎΡΡΠΎΡΠ½ΠΈΠ΅ ΡΠΎΠ±ΠΎΡΠ° ΠΈ Π΄Π΅ΠΉΡΡΠ²ΠΈΡ, ΠΈ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ Π²ΡΡ
ΠΎΠ΄Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ Π΄Π»Ρ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ ΡΠΎΠ±ΠΎΡΠΎΠΌ.
ΠΠ»Ρ ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΡΡ Π΄Π°ΡΠ°ΡΠ΅Ρ DROID ΠΈ ΡΠΎΠ·Π΄Π°Π½Π½ΡΠΉ Π²ΡΡΡΠ½ΡΡ ΠΌΡΠ»ΡΡΠΈΠ·Π°Π΄Π°ΡΠ½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ICRT-Multi-Task (ICRT-MT - 1098 ΡΡΠ°Π΅ΠΊΡΠΎΡΠΈΠΉ, 26 Π·Π°Π΄Π°Ρ Ρ 6 ΠΏΡΠΈΠΌΠΈΡΠΈΠ²Π°ΠΌΠΈ), ΠΊΠΎΡΠΎΡΡΠΉ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΡΡ Π² ΡΡΠ°ΠΏΠ΅ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΡ.
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°ΡΡ, ΡΡΠΎ ICRT ΡΠΏΠΎΡΠΎΠ±Π΅Π½ ΠΎΠ±ΠΎΠ±ΡΠ°ΡΡ Π½Π΅Π·Π½Π°ΠΊΠΎΠΌΡΠ΅ Π·Π°Π΄Π°ΡΠΈ ΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΡ, Π΄Π°ΠΆΠ΅ Π² ΡΡΠ΅Π΄Π°Ρ
, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΎΡΠ»ΠΈΡΠ°ΡΡΡΡ ΠΎΡ Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠ°ΡΠΈΠΎΠ½Π½ΡΡ
.
βΆοΈΠ£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ°:
# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt
# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install -c conda-forge ffmpeg
# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt
# Install required packages
pip install -e .
# Install git-lfs
sudo apt install git-lfs
git lfs install
# Download checkpoints
git clone git@hf.co:mlfu7/ICRT checkpoints
ΠΡΠΈΠΌΠ΅Ρ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ° ΠΏΡΠΈΠ²Π΅Π΄Π΅Π½ Π² Π½ΠΎΡΡΠ±ΡΠΊΠ΅ inference.ipynb. ΠΠ΅ΡΠ΅Π΄ Π΅Π³ΠΎ Π·Π°ΠΏΡΡΠΊΠΎΠΌ ΠΎΠ±ΡΠ·Π°ΡΠ΅Π»ΡΠ½ΠΎ ΠΎΠ·Π½Π°ΠΊΠΎΠΌΡΡΠ΅ΡΡ Ρ ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°ΡΠΈΡΠΌΠΈ ΠΏΠΎ Π·Π°Π³ΡΡΠ·ΠΊΠ΅ ΠΈ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ ΡΠΎΠ±ΡΡΠ²Π΅Π½Π½ΠΎΠ³ΠΎ Π΄Π°ΡΠ°ΡΠ΅ΡΠ°.
πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ : Apache 2.0 License.
π‘Arxiv
π‘Dataset
π‘ΠΠΎΠ΄Π΅Π»Ρ
π₯Github
#AI #ML #Robotics #ICRT
Π ΡΡΠΎΠΌ ΠΏΠΎΡΡΠ΅ Π΅ΡΡΡ Π±ΠΎΠ»ΡΡΠΎΠ΅ Π²ΠΈΠ΄Π΅ΠΎ, ΠΊΠΎΡΠΎΡΠΎΠ΅ Π½Π΅ Π·Π°Π³ΡΡΠ·ΠΈΠ»ΠΎΡΡ Π² ΠΠ·Π΅Π½. ΠΡΠΊΡΠΎΠΉΡΠ΅ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π» ΠΏΠΎΡΡΠ° Π² ΡΠ΅Π»Π΅Π³ΡΠ°ΠΌΠ΅, ΡΡΠΎΠ±Ρ Π΅Π³ΠΎ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ
2 ΠΌΠΈΠ½ΡΡΡ
4Β ΡΠ΅Π½ΡΡΠ±ΡΡΒ 2024