10,2 тыс подписчиков
⚡️ Sapiens: Семейство ViT-моделей для визуальных задач c изображениями человека.
Meta Reality Labs выпустила семейство моделей Sapiens, предназначенных для операций с изображениями или видео людей:
🟢вычисления 2D-позы (17, 133 и 308 ключевых точек);
🟢сегментации частей тела (28 категорий);
🟢оценки карты глубины;
🟢извлечения нормалей поверхности.
Модели могут работать с разрешением 1K (1024х1024) и легко адаптируются под специфические задачи путем тонкой настройки моделей. Семейство было обучено на предварительно отобранном корпусе данных в 300 млн изображений, из которого были удалены изображения с водяными знаками, художественной стилизацией, снимки плохого качества и содержащие размытие в движении.
Опубликованные модели разделяются по назначению : sapiens_lite_host - предназначены для инференса, а sapiens_host - длясамостоятельного обучения на ваших данных. Для обеих вариантов наборов выпущены градации плотности:
🟢Sapiens 0.3B
🟢Sapiens 0.6B
🟢Sapiens 1B
🟢Sapiens 2B
Разработчики рекомендуют lite-установку для инференса, она оптимизирована для быстрого запуска с минимальными зависимостями и возможностью запуска на нескольких GPU.
▶️Установка и запуск на примере Depth Estimation:
# Clone repository
git clone git@github.com:facebookresearch/sapiens.git
export SAPIENS_ROOT=/path/to/sapiens
# Set up a venv:
conda create -n sapiens_lite python=3.10
conda activate sapiens_lite
# Install dependencies
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install opencv-python tqdm json-tricks
# Navigate to your script directory
cd $SAPIENS_LITE_ROOT/scripts/demo/[torchscript,bfloat16,float16]
# Uncomment your model config line first
./depth.sh
📌 Лицензирование : CC-BY-NC-SA-4.0 License
#AI #Vision #ViT #ML #CV
В этом посте есть большое видео, которое не загрузилось в Дзен. Откройте оригинал поста в телеграме, чтобы его посмотреть
1 минута
25 августа 2024